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E 载 整合 而 成 ， 主 要 介绍 了 新 语言 Streem 的 设 





























计 与 实现 过 程 。 作 者 从 设计 Streem 这 门 新 语言 的 动机 开始 讲 起 ， 由 浅 入 深 ， 详 细 介 绍 了 新 语言 开发 中 的 












































各 个 环节 ， 以 及 语言 设计 上 的 纠结 与 取舍 ， 其 中 也 不 乏 对 其 














编程 语言 的 乐趣 。 
本 书 适合 各 层次 程序 设计 人 员 和 编程 爱好 者 阅读 。 
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本 书 是 Ruby 之 父 松 本 行 弘 最 新 的 作品 。 在 书 中 作者 讲述 了 从 头 开 始 设计 一 门 新 的 流 处 理 语言 
Streem 的 过 程 。 凭 借 作者 在 业界 的 影响 力 ，Streem 语言 在 开发 阶段 就 已 经 在 GitHub 上 收获 了 四 千 
多 star。 

虽然 Streem 语言 依然 在 开发 阶段 ， 不 适合 在 正式 项 目 中 使 用 ,但 是 本 书 最 大 的 价值 并 不 在 于 
Streem 语言 本 身 。 正 如 作者 在 文中 所 说 ,很 多 编程 语言 相关 的 书 都 是 在 介绍 一 门 语言 该 如 何 使 用 ， 
自制 编程 语言 的 书 也 仅仅 涉及 语言 的 实现 ， 讲 解 语言 为 什么 这 样 设计 的 书 少 之 又 少 ， 而 这 本 书 就 属 
于 后 者 。 从 简单 的 如 何 为 语言 取 名 ， 到 复杂 的 如 何 设计 多 线程 、 垃 圾 回收 等 ， 作 者 在 书 中 事 无 巨细 
地 介绍 了 语言 设计 的 方方面面 。 对 于 想 了 解 语言 为 什么 会 这 样 设计 、 语 法 为 什么 是 这 样 的 读者 来 
说 ， 本 书 是 一 本 不 可 多 得 的 宝贵 资料 。 

练武 的 有 武 痴 ， 而 作者 简直 就 是 “语言 痴 ”( 或 者 “语言 控 ”， 褒 义 )， 几 十 年 来 一 直 孜 孜 不 倦 
地 研究 各 种 语言 ， 并 且 与 许多 语言 设计 者 有 过 直接 的 交流 ， 所 以 对 很 多 语言 都 很 熟悉 ， 在 书 中 他 也 
劳 征 博 引 地 介绍 了 这 些 语言 是 如 何 设计 的 。 因 为 很 多 语言 的 语法 都 是 相通 的 ， 所 以 即使 不 打算 自己 去 
设计 新 的 语言 ， 了 解 语言 设计 的 知识 ， 对 语言 的 学 习 也 是 大 有 神 益 的 。 比 如 3.4 节 讲 解 了 模式 匹配 ， 
对 于 Java 程序 员 理 解 Scala 语言 的 模式 匹配 功能 应 该 很 有 帮助 。4.4 节 综 合 介绍 了 垃圾 回收 的 几 种 算 
法 ， 写 得 通俗 易 懂 ， 与 Java 或 者 Objective-C 等 语法 书 一 般 只 介绍 语言 中 用 到 的 垃圾 回收 算法 相 比 ， 
作者 的 介绍 更 有 助 于 读者 深入 理解 垃圾 回收 ， 了 解 各 种 算法 的 优 缺 点 ， 这 也 许 在 面试 时 就 能 用 得 上 。 

作者 在 业界 活跃 几 十 年 ， 学 识 非常 渊博 。 第 5 章 就 是 一 个 很 好 的 体现 。 作 者 在 第 5 章 讲解 了 管 
道 编程 、CSV 文件 处 理 、 时 间 表 示 、 统 计 以 及 随机 数 等 多 个 主题 ， 并 围绕 这 些 主题 介绍 了 大 量 相关 
的 知识 和 算法 。 比 如 5.2 节 介 绍 了 流 处 理 相关 的 map、reduce fll £1atmap 等 函数 ， 这 些 知识 对 
学 习 大 数据 的 mapreduce 和 spark 流 处 理会 很 有 帮助 ; 5.5 节 介绍 的 统计 算法 和 5.6 节 介 绍 的 随机 数 
生成 算法 让 译 者 在 翻译 时 也 受益 菲 浅 。 这 些 知识 说 不 定 什么 时 候 就 能 派 上 用 场 ， 如 果 你 记 住 了 5.5 
节 介 绍 的 蓄 水 池 抽 样 算法 ， 那 么 海量 数据 随机 抽样 之 类 的 问题 就 难 不 倒 你 了 。 

里 然 作者 是 业界 的 风云 人 物 ， 但 在 书 中 毫 不 讳言 自己 不 擅长 哪些 领域 、 哪 些 地 方 借鉴 了 他 人 的 
实现 ， 非 常平 易 近 人 ， 不 会 让 人 感觉 高 不 可 攀 。 阅 读本 书 就 像 是 在 跟 一 位 谨 谨 善 诱 的 前 辈 聊 天 ， 他 
会 告诉 你 自己 是 怎么 设计 语言 的 、 为 什么 要 这 样 设计 、 别 人 是 怎么 做 的 、 有 具体 要 怎么 实现 、 在 自己 
实现 不 了 的 情况 下 如 何 借鉴 别人 开源 的 东西 、 如 何 取得 许可 ， 等 等 ， 非 常 有 趣 。 作 者 还 在 书 中 设置 
了 “时 光 机 专栏 >， 其 中 添加 了 对 正文 内 容 经 过 一 段 时 间 沉 淀 之 后 的 思考 ， 这 些 内 容 也 很 有 趣 ， 请 
























































































































































































































































读者 不 要 错过 。 
另外 ， 作 者 在 书 中 多 次 流露 了 “最 近 太 忙 了 ， 这 个 功能 有 机 会 再 实现 吧 ” 的 想法 ， 让 译 者 也 心 
Trois. 


iv | 译 者 序 


希望 读者 能 在 阅读 本 书 的 过 程 中 体验 到 语言 设计 的 乐趣 ， 有 所 收获 。 

由 于 译 者 水 平 有 限 ， 书 中 娩 有 下 漏 和 错误 之 处 ， 还 请 读者 随时 指正 。 

在 此 训 心 感谢 图 灵 公 司 的 各 位 编辑 在 翻译 过 程 中 给 予 的 帮助 ， 感 谢 博 学 儒雅 的 上 司 王 蕴 梢 在 工 000 
作 上 的 指导 ， 感 谢 亲 友 杨 玉生 、 黄 旭 、 戎 政 给 予 的 支持 和 鼓励 ， 最 后 也 要 感谢 一 直 给 我 家 庭 温 暖 的 
父母 、 抽 父母、 妹妹 一 家 、 妻 子 和 儿子 。 
































郑 明 智 
2019 年 5 月 于 余杭 南湖 


我 曾经 在 Linux 专业 期 刊 《 日 经 Linux》 上 开设 了 名 为 “ 边 做 边 学 编程 语言 ”的 专栏 (2014 年 
4 月 ~ 2016 年 12 月 )， 本 书 就 是 对 这 个 专栏 的 系列 文章 加 以 汇总 ， 并 添加 了 一 些 新 的 内 容 编辑 整理 
而 成 的 。 

以 自制 编程 语言 为 主题 的 书 非常 多 ， 我 家 的 书架 上 也 放 了 好 几 本 。 这 些 自制 编程 语言 的 书 绝 大 
部 分 是 介绍 编程 语言 的 实现 的 。 比 如 以 比较 简单 的 语言 的 实现 作为 示例 ， 介 绍 如 何 使 用 yacc 和 lex 
工具 制作 语法 分 析 器 和 词法 分 析 器 ， 如 何 实现 解释 器 等 。 

不 了 解 真实 情况 的 人 总 以 为 编程 语言 的 实现 需要 高 超 的 技术 ,非常 困难 ， 但 如 果 循 序 渐进 地 进 
行 实际 操作 ， 就 会 发 现 其 实 并 没有 那么 难 。 实 际 上 ， 在 大 学 的 计算 机 科学 课程 中 ， 也 有 不 少 实现 语 
言 处 理 器 之 类 的 作业 。 在 以 年 轻 人 为 对 象 的 编程 竞赛 中 ， 比 如 我 长 期 担任 评委 的 U22 编程 苋 赛 ,其 
至 有 高 中 生 挑 战 自制 编程 语言 。 

抛 开 成 见 认真 去 做 的 话 ， 你 会 发 现 编程 语言 的 设计 与 实现 对 程序 员 来 说 是 一 项 非常 有 趣 的 智力 
挑战 。 在 这 个 意义 上 ， 这 些 关 于 自制 编程 语言 的 书 是 有 其 存在 价值 的 。 

但 这 并 不 是 说 我 对 这 些 书 没有 不 满 。 这 些 书 顶 多 是 对 编程 语言 的 实现 的 解说 ， 作 为 示例 使 用 的 语 
言 也 几乎 都 是 现 有 语言 的 (过 于 简化 的 ) 子 集 。 而 对 于 创建 编程 语言 的 过 程 中 最 挑战 智力 也 最 有 趣 的 语 
言 设计 部 分 ， 可 以 说 完全 没有 涉及 。 

不 过 这 也 是 没 办 法 的 事 ， 可 以 理解 。 为 了 有 效 利用 有 限 的 页 数 ， 缩 小 主题 是 必然 的 。 如 果 不 限 
定 为 简单 的 语法 ， 那 么 无 论 如 何 也 很 难 讲 完 。 再 往 深 里 说 ， 也 没有 多 少 人 有 设计 全 新 的 编程 语言 的 
经 验 ， 更 不 用 说 自己 设计 的 语言 在 全 世界 被 广泛 使 用 了 ， 可 以 毫 不 夸张 地 说 ， 根 本 没有 这 样 的 人 。 

也 就 是 说 ， 几 乎 没有 人 能 根据 自己 的 经 验 来 讲述 如 何 设计 编程 语言 。 因 此 ， 将 语言 的 设计 作为 
后 话 ， 优 先 讲 解 语言 处 理 器 的 实现 技术 ， 可 以 说 是 必然 的 。 

其 中 也 有 少数 例外 的 情况 ， 比 如 C++ 设计 者 本 机 尼 … 斯 特 劳 斯 特 卢 普 (Bjarne Stroustrup ) 所 



































































































































































































































著 的 The Design and Evolution of C++ 一 书 。 这 是 一 本 非常 宝贵 的 书 。 读 了 这 本 书 ， 你 就 可 以 了 解 
C++ 为 何 是 现在 的 样子 ， 它 的 目标 是 什么 。 不 过 是 否 能 靠 这 本 书 学 会 语言 设计 的 方法 ， 那 就 男 当 别 
论 了 。 








既然 世界 上 不 存在 这 样 的 书 ， 那 就 只 能 自己 去 写 了 。 幸 好 我 拥有 在 全 世界 被 广泛 使 用 的 编程 语 
言 的 设计 经 验 ， 有 这 种 经 验 的 人 屈指 可 数 。 另 外 ， 我 兴趣 广泛 ， 对 世界 上 各 种 编程 语言 的 设计 都 有 
所 了 解 。 再 者 ,我 在 《日 经 Linux》 上 连载 过 文章 ， 还 有 多 本 书 的 写作 经 验 。 因 此 ， 要 写 关 于 设计 
编程 语言 的 书 ， 怒 怕 整 个 日 本 没有 人 比 我 更 合适 了 吧 CE ETE) ! 

有 了 这 个 想法 之 后 ， 我 便 从 《日 经 Linux》2014 年 4 月 刊 起 开设 了 专栏 ， 开 始 发 表 该 主题 的 文 










































































中 ”中文 版 名 为 《C++ 语言 的 设计 与 演化 》， 故 宗 燕 译 ， 科 学 出 版 社 2012 年 出 版 。 一 一 译 者 注 








从 创造 编程 语言 的 动机 ， 到 思考 语言 设计 时 的 内 心 纠葛 …… 本 书 提 到 了 很 多 其 他 同类 书 中 不 曾 
涉及 的 内 容 ， 对 此 我 也 颇 为 骄傲 。 

但 是 在 把 每 个 月 连载 在 杂志 上 的 内 容 汇总 成 书 时 ， 一 个 难 逃 的 宿命 就 是 ， 随 着 时 间 的 推移 ， 会 
出 现 内 容 前 后 矛盾 等 问题 。 本 书 也 不 例外 。 

连载 时 的 主题 如 表 1p. Ho. AIÑ Ruby“mruby” 相 关 的 介绍 (2014 年 4 月 刊 和 2014 
年 6 月 刊 的 一 部 分 ) 以 及 超出 本 书 范围 的 相关 说 明 (2014 年 9 月 刊 ~2014 年 11 月刊) 均 未 被 收录 
在 本 书 之 中 。 另 外 ， 我 还 调整 了 连载 的 前 后 顺序 ， 并 结合 Streem 的 现状 修改 了 部 分 内 容 。 

但 是 ， 整 体 的 文章 结构 与 连载 时 相 比 并 没有 大 的 变动 。 因 此 ， 为 了 保持 内 容 的 连贯 性 以 及 帮助 
各 位 读者 理解 ， 我 在 每 节 的 末尾 添加 了 “时 光 机 专栏 ”， 这 是 对 正文 的 补充 。 在 这 部 分 内 容 中 ,我 
会 站 在 现在 的 角度 审视 过 去 的 连载 主题 有 哪些 不 足 之 处 。 
“时 光 机 专栏 ”的 存在 ， 好 像 是 向 世人 承认 自己 的 能 力 有 限 一 样 ， 这 令 我 心情 复杂 ， 但 想到 谁 
也 无 法 预知 未 来 ， 我 也 就 释然 了 。 

接 下 来 就 由 我 带领 大 家 进入 编程 语言 设计 的 世界 吧 ! 
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-] 自己 创造 编程 语言 的 意义 


通过 实际 创造 一 门 新 的 编程 语言 ， 可 以 学 到 编程 语言 的 设计 思路 和 实现 方法 。 随 着 开 
































源 的 普及 ， 创 造 新 编程 语言 的 门槛 一 下 子 降低 了 许多 。 创 造 编程 语言 不 仅 可 以 提升 你 
作为 技术 者 的 价值 ， 而 且 还 可 以 使 你 从 中 获得 很 大 的 乐趣 。 






































大 家 都 知道 我 是 编程 语言 Ruby 的 作者 ， 我 其 实 还 是 一 个 编程 语言 迷 ， 对 编程 语言 的 痴迷 程度 无 
人 能 及 。Ruby 是 我 出 于 兴趣 钻研 编程 语言 的 最 大 成 果 ， 把 它 称 为 我 兴趣 的 副产品 可 能 更 为 贴切 。 副 产 
品 就 能 如 此 普及 看 起 来 很 了 不 起 ,但 与 其 把 它 全 部 归功 于 我 的 实力 ， 倒 不 如 说 运气 的 成 分 更 大 。Ruby 
已 经 诞生 20 多 年 了 ， 如 果 没 有 这 人 么 多 年 来 发 生 的 各 种 事情 与 移 逅 ， 根 本 不 可 能 有 今天 这 样 的 成 绩 。 









































进入 创造 编程 语言 的 世界 





大 家 有 创造 编程 语言 的 经 历 吗 ?对 于 有 过 编程 经 历 的 人 来 说 ， 编 程 语言 是 非常 亲切 的 存在 ， 但 
是 他 们 往往 会 认为 编程 语言 是 现成 的 东西 ， 也 许 谁 都 没有 想 过 自己 去 创造 一 门 新 的 编程 语言 。 这 也 
是 情理 之 中 的 事情 。 

与 人 们 说 话 用 的 语言 〈 自然 语言 ) 不 同 ， 世 界 上 所 有 的 编程 语言 都 是 由 某 个 地 方 的 某 个 人 创造 
的 。 它 们 不 是 自然 产生 的 ， 而 是 根据 明确 的 意图 和 目的 被 设计 并 实现 的 。 所 以 ， 如 果 过 去 没有 这 些 
创造 编程 语言 的 人 ( 编程 语言 的 作者 )， 那 么 我 们 今天 可 能 还 在 用 汇编 语言 编程 呢 。 

在 人 们 刚 开 始 编程 时 ， 编 程 语言 就 随 之 出 现 了 ， 可 以 说 编程 的 历史 就 是 编程 语言 的 历史 。 

本 书 的 目标 是 要 你 自己 创造 一 门 编程 语言 。 可 能 有 的 读者 会 想 :“ 现 在 再 创造 编程 语言 还 有 什么 
意义 呢 ?” 我 稍 后 回答 这 个 问题 ， 现 在 我 们 先 来 看 一 下 编程 语言 的 历史 。 














































































































m 个 人 创造 编程 语言 的 历史 


早期 的 编程 语言 是 由 在 工作 中 切切 实 实 与 编程 语言 打交道 的 人 创造 的 ， 这 些 人 大 多 就 职 于 企 
业 的 研究 所 (比如 FORTRAN PL/1 的 发 明 )、 大 学 ( 比如 LISP ) 以 及 标准 委员 会 ( 比如 ALGOL, 
COBOL) 等 。 也 就 是 说 ， 设 计 开 发 编程 语言 是 专业 人 十 的 工作 ,但 是 这 个 传统 随 着 20 世纪 70 年 
代 计 算 机 的 普及 开始 发 生 了 变化 。 一 些 计算 机 爱好 者 在 拥有 了 自己 的 计算 机 后 ， 出 于 兴趣 开始 编 
程 ， 甚 至 开始 开发 新 的 编程 语言 。 

其 中 最 具有 代表 性 的 就 是 BASIC 语言 。BASIC 语言 原本 是 美国 达 特 茅 斯 学 院 用 于 教学 的 编程 
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语言 ， 它 的 语法 非常 简单 ， 用 极 少 的 代码 实现 了 最 基本 的 功能 ， 所 以 深 受 20 世纪 70 年 代 编程 爱好 
者 的 喜爱 ， 并 被 他 们 广泛 使 用 。 

这 些 编程 爱好 者 也 开始 开发 自己 版 本 的 BASIC 语言 。 当 时 ， 个 人 计算 机 ”的 内 存 顶 多 几 千 兆 ， 
他 们 开发 的 BASIC 语言 就 是 可 以 在 内 存 如 此 之 小 的 机 器 上 工作 的 小 规模 版 本 。 这 些小 规模 的 
BASIC 程序 大 小 不 到 1KB， 它 们 在 4 KB 左右 的 内 存 上 也 能 工作 ， 跟 现在 需要 大 内 存 的 语言 处 理 器 
比 起 来 真是 令 人 惊讶 。 























微机 杂志 的 时 代 


以 个 人 开发 的 BASIC 为 代表 的 小 规模 语言 (Tiny 语言 ) 处 理 器 不 久 便 以 各 种 各 样 的 形式 进行 
了 发 布 。 当 时 的 软件 有 的 以 Dump list 的 形式 刊登 在 计算 机 杂志 上 ， 有 的 将 程序 数据 进行 音频 转换 
后 收录 在 杂志 附带 的 薄膜 唱片 (sonosheet ) 中 发 布 。 现 在 的 人 疏 怕 已 经 不 知道 薄膜 唱片 了 吧 。 薄 膜 
唱片 是 指 塑料 做 的 薄 薄 的 唱片 ， 不 过 唱片 这 个 词 几 乎 没有 人 用 了 。 据 说 当时 的 计算 机 爱好 者 都 用 唱 
片 播放 器 连接 计算 机 来 读 取 数据 ， 而 不 使 用 磁带 录音 机 这 个 最 普遍 的 外 部 存储 设备 。 

20 世纪 七 八 十 年 代 是 计算 机 杂志 ( 当时 称 为 微机 杂志 ) 的 全 盛 时 期 ,在 日 本 以 下 4 种 杂志 竞争 
激烈 。 






























































e RAM ( 广 济 堂 出 版 ) 

e /Wy Computer ( 电波 新 闻 社 
e VO ( 工学 社 
e ASCII ( ASCII 公司 ) 








ix 4 种 杂志 中 现在 只 有 DO 仍 在 发 行 ， 不 过 也 大 不 如 前 了 。 作 为 一 个 了 解 当 时 情况 的 人 ， 我 的 
内 心 充满 了 无 限 感慨 。 

这 之 后 ，My Computer 杂志 派生 出 了 My Computer BASIC Magazine， 义 发 生 了 很 多 事情 ， 继 续 
讲 下 去 铠 怕 就 会 变 成 上 岁数 人 的 叙旧 了 ， 所 以 点 到 为 止 吧 。 如 果 去 问 问 现在 三 四 十 岁 的 程序 员 ， 相 
信和 他 们 中 间 很 多 人 都 会 眉飞色舞 地 讲 起 那个 年 代 的 事情 。 

当时 的 微机 杂志 附带 了 收录 BASIC 的 薄膜 唱片 ， 除 此 之 外 还 介绍 了 其 他 几 个 小 规模 语言 ， 如 
GAME, TL/1 等 。 这 些 语言 都 反映 了 当时 那个 时 代 的 特色 ， 非 常 有 趣 ， 我 会 在 本 节 的 最 后 对 其 进行 
介绍 ， 请 大 家 务必 读 一 读 。 
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个 人 创造 编程 语言 的 现状 


为 什么 从 20 世纪 70 年 代 后 期 到 80 年 代 前 期 开始 兴起 个 人 创造 编程 语言 了 呢 ? 我 认为 最 大 的 


























CD 通常 称 为 微机 。 微 机 是 微型 计算 机 、 微 型 机 的 简称 。 
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原因 是 当时 难以 获取 开发 环境 。 

20 世纪 70 年 代 后 期 广泛 使 用 的 微机 是 
TK-80 ( 图 1-1) 那样 的 主板 裸露 在 外 的 单 板 
机 ， 很 多 都 是 半成品 ， 需 要 自己 去 钙 焊 。 这 样 
的 机 絮 不 可 能 自 带 开发 环境 之 类 的 东西 ， 软 件 
都 要 自己 输入 机 器 语言 之 后 才 会 工作 。 

20 世纪 70 年 代 末期 才 出 现 PC-8001 和 
MZ-80 那样 的 “成 品 计算 机 ”。 然 而 ， 这 种 计 
算 机 顶 多 带 一 个 BASIC 开发 环境 ， 因 此 人 们 
很 难 自 由 地 选择 开发 语言 。 虽 说 市 面 上 也 有 商 
的 语言 处 理 器 ， 但 C 编译 器 的 定价 就 要 19.8 
万 日 元 , 这 不 是 普通 人 可 以 轻易 买 得 起 的 。 于 
是 ， 人 们 便 有 了 热情 去 创造 一 门 自己 的 编程 语言 。 

可 现在 获取 语言 的 开发 环境 已 经 不 再 是 麻烦 事 了 。 各 种 编程 语言 和 开发 环境 作为 开源 软件 被 公 
开 ， 即 使 是 非 开 源 的 ， 也 可 以 轻松 地 通过 网 络 得 到 免费 版 本 。 

这 样 一 来 ， 现 在 自己 创造 编程 语言 岂 不 是 没有 任何 意义 吗 ?” 如 果 这 个 问题 的 答案 为 “是 ”， 那 
么 本 书 在 第 1 章 开 头 就 结束 了 。 

我 认为 〈 而且 为 了 这 本 书 也 应 当 这 么 回答 )， 这 个 问题 的 答案 为 “和 否 "。 即 使 是 现在 ， 自 己 创 造 
一 门 新 的 编程 语言 也 是 有 意义 的 ， 而 且 有 很 重要 的 意义 。 

而 且 现 在 很 多 广泛 使 用 的 编程 语言 也 都 是 在 开发 环境 容易 获取 的 情况 下 ， 由 个 人 设计 和 开发 出 
来 的 。 如 果 个 人 开发 编程 语言 真 的 没有 意义 ， 那 么 Ruby、Perl、Python 和 Clojure 这 些 语言 也 就 不 会 外 
生 了 。 

不 过 即便 如 此 ， 我 认为 Java、JavaScript、Erlang 和 Haskell 这 些 语言 也 可 能 会 以 其 他 形式 出 现 ， 
因为 它们 会 作为 业务 和 研究 的 一 环 被 开发 出 来 。 














^ n TRAINING KIT (TK—80) nr. 


















































1-1 TK-80 


























































































































m 为 什么 要 创造 新 的 编程 语言 


那么 如 今 个 人 设计 开发 编程 语言 的 动力 究竟 是 什么 呢 ? 
回顾 我 自身 的 经 历 以 及 参考 其 他 语言 作者 的 意见 ， 我 认为 有 以 下 几 点 理由 。 

















。 提高 编程 能 力 
。 提高 设计 能 力 
。 打造 个 人 品牌 
。 获得 自由 
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首先 ， 编 程 语 言 的 实现 可 以 说 是 计算 机 科学 的 综合 艺术 。 作 为 语言 处 理 器 的 基础 ， 词 法 分 析 和 
语法 分 析 也 可 以 应 用 在 网 络 通信 的 数据 协议 的 实现 等 方面 。 























实现 语言 功能 的 库 和 实现 其 

















的 数据 结构 ， 这 正 是 计算 机 科学 要 做 的 事 ; 
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青 。 尤 其 是 编程 语言 的 





应 用 范围 广泛 ， 很 难事 先 预测 会 被 用 于 什么 方面 ， 因 此 库 和 数据 结构 的 实现 难度 也 就 更 大 ， 但 也 变 














得 更 加 有 意思 了 。 








另外 ， 编 程 语言 还 是 人 与 计算 机 间 的 接口 。 设 计 这 样 的 接口 ， 就 需要 深入 考察 人 是 如 何 思考 问 
题 的 、 下 意识 中 有 什么 样 的 期 待 。 反 复 进 行 这 样 的 考察 ， 对 编程 语言 之 外 的 应 用 程序 接口 (API ) 
设计 、 用 户 界面 CU) 设计 ， 甚 至 用 户 体验 (UX ) 设计 都 是 有 益 的 。 





























提升 个 人 品牌 


也 许 有 人 会 感到 意外 ， 实 际 上 在 IT 行业 














， 对 编程 语言 感 兴趣 的 人 不 在 少数 。 这 是 考 庸 置疑 的 ， 




















因为 编程 与 编程 语言 有 着 切 不 断 的 关系 。 以 编程 语言 为 主题 的 活动 和 会 议 等 往往 都 会 吸引 很 多 人 参 
加 ， 由 此 我 们 也 能 感受 到 编程 语言 的 魅力 。 正 因 如 此 ， 很 多 人 在 网 上 发 现 新 的 语言 后 就 会 开始 尝 
试 。 就 拿 Ruby 来 说 ， 它 在 1995 年 被 发 布 到 网 上 之 后 ， 仅 仅 2 周 左右 就 吸引 了 200 多 人 加 入 邮件 列 














表 ， 着 实 令 人 惊讶 。 























言 ， 而 且 是 超越 杂志 提 及 的 “小 儿科 语言 " 
计 出 一 个 实用 的 编程 语言 这 一 点 ， 你 就 会 得 至 





























可 是 ， 虽 然 有 很 多 人 愿意 尝试 使 用 新 的 编程 语言 ， 却 几乎 没有 人 会 去 设计 并 实现 一 门 编程 语 








种 程度 的 能 够 实用 化 的 编程 语言 。 但 我 保证 ， 仅 赁 设 
1 人 们 的 尊敬 。 

















在 这 个 开源 的 时 代 ， 技 术 人 要 想 生 存 下 去 ， 在 技术 社区 的 存在 感 是 非常 重要 的 。 虽 然 技术 人 只 

















要 开源 其 软件 就 能 达到 站 稳 脚 跟 的 效果 ， 但 编程 语言 的 “特殊 感 ”会 进一步 提升 其 品牌 效应 。 





乐趣 第 一 











另外 ， 编 程 语言 的 设计 与 实现 比 任何 事情 都 更 有 趣 。 的 确 如 此 。 与 计算 机 科学 相关 的 具有 挑战 

















这 一 点 也 非常 有 意思 。 























性 的 工程 也 是 这 样 。 设 计 编 程 语言 还 可 以 帮助 使 用 这 门 语言 的 程序 员 思 考 ， 其 至 左右 他 们 的 想法 ， 

















通常 来 说 ， 编 程 语言 有 一 种 从 别处 获取 的 、 不 容 侵 犯 的 感觉 。 如 果 是 自己 创造 编程 语言 ， 就 完 
全 没有 这 个 问题 。 你 可 以 按照 自己 的 喜好 进行 设计 ， 如 果 不 满意 或 者 有 更 好 的 想法 ， 也 可 以 自由 地 








修改 。 从 某 种 意义 上 来 说 ， 这 是 终极 的 自由 。 














编程 在 某 种 意义 上 是 对 自由 的 追求 。 通 过 亲自 编程 ， 我 们 可 以 获得 单纯 使 用 他 人 的 软件 时 享受 
不 到 的 自由 。 至 少 对 我 来 说 ， 这 是 编程 的 一 个 重要 动机 。 于 我 而 言 ， 创 造 编程 语言 是 获取 更 高 程度 


























自由 的 手段 ， 也 是 我 的 乐趣 与 快乐 的 源 凡 。 
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为 什么 创造 新 编程 语言 的 人 不 多 











虽说 自己 创造 一 门 编程 语言 有 这 么 多 好 处 ， 但 并 不 是 每 个 人 都 会 去 做 。 正 如 上 文 所 说 的 那样 ， 
对 编程 语言 感 兴趣 的 人 虽然 有 一 些 ， 但 着 手 去 创造 编程 语言 的 人 几乎 没有 。 说 是 “ 感 兴 趣 的 人 有 一 
些 "， 但 从 占 总 人 口 的 比例 来 看 ， 其 实 少 到 可 以 算 作 误 差 范围 的 程度 ， 更 不 用 说 有 动力 去 创造 新 编 
程 语言 的 人 了 ， 就 算 没 有 也 不 足 为 奇 。 

我 自己 在 关注 编程 语言 几 年 后 就 着 了 迷 ， 但 是 在 进入 大 学 主 修 计算 机 科学 之 后 ， 才 注意 到 并 不 
是 所 有 人 都 对 编程 语言 感 兴趣 。 这 是 因为 我 在 俩 僻 的 乡下 长 大 ， 周 于 没 有 喜欢 编程 的 人 可 供 比较 。 
这 一 点 对 我 来 说 也 不 知道 是 幸 还 是 不 幸 。 

“难道 我 跟 别 人 不 一 样 ?” 意 识 到 这 一 点 的 时 候 ， 我 很 震惊 。 因 为 当时 的 微机 杂志 上 刊登 了 很 多 
关于 TL/1 等 编程 语言 的 文章。 我 本 以 为 对 编程 感 兴趣 的 人 ( 和 我 一 样 ) 很 可 能 也 会 对 编程 语言 着 
迷 ， 但 实际 上 并 非 如 此 。 

本 来 就 对 编程 语言 不 感 兴趣 的 人 自 不 用 说 ， 即 使 是 感 兴趣 的 人 ， 也 很 难 走 到 自己 设计 并 实现 纺 
程 语言 这 一 步 。 

关于 这 个 问题 的 原因 ， 我 思考 过 很 长 时 间 。 作 为 编程 语言 设计 者 ， 在 参加 编程 语言 相关 的 活动 
时 ， 我 也 兽 以 过 来 人 的 身份 鼓励 别人 尝试 一 下 ， 但 结果 总 是 不 尽 如 人 意 。 当 然 ， 万 事 开 头 难 ， 开 始 
一 件 新 的 事情 是 需要 很 大 勇气 的 。 但 即使 是 这 样 ， 反 响 也 太 差 了 。 



















































































































































































没 必要 想 得 很 难 





问 了 很 多 人 之 后 ， 我 才 知 道 大 家 为 什么 不 去 着 手 尝试 了 。 那 是 因为 就 算 有 兴趣 创造 一 门 新 的 编 
程 语言 ， 在 开始 之 前 多 半 也 会 有 某 种 心理 障碍 ， 也 就 是 觉得 “编程 语言 有 现成 的 ， 本 来 就 不 需要 自 
己 去 设计 和 开发 "。 难 得 有 那么 几 个 人 不 会 产生 这 种 心理 障碍 ， 却 又 觉得 语言 的 实现 似乎 很 难 。 也 
就 是 说 ， 他 们 觉得 编程 语言 很 有 趣 ， 自 己 也 想 做 做 看 ， 却 不 知道 如 何 去 实 现 。 

仔细 想来 ， 关 于 编程 语言 的 实现 的 书 虽然 出 乎 意料 地 出 版 了 很 多 ,但 大 部 分 都 是 大 学 教材 的 难 
度 ， 非 常 不 容易 理解 。 男 外 ， 与 编译 原理 有 关 的 “文法 类 型 ”和 “Follow RA” ERRER UU 
繁 出 现 。 

但 是 认真 想 一 想 ， 我 们 的 目的 是 出 于 兴趣 创造 自己 的 编程 语言 ， 而 不 是 去 掌握 编程 语言 的 实现 
所 需 的 所 有 知识 。 如 果 你 认为 在 没有 完全 掌握 正确 的 知识 之 前 就 无 法 着 手 创 造 编程 语言 ， 那 就 大 错 
特 错 了 ， 你 的 热情 会 被 逐渐 消磨 列 尽 。 

成 就 一 番 伟 大 的 事业 首先 需要 的 就 是 热情 ， 不 能 保持 热情 是 不 行 的 。 一 旦 有 了 创造 编程 语言 的 
热情 ， 就 应 尽快 开始 ， 以 后 再 根据 需要 慢 慢 地 掌握 所 需 的 知识 即 可 。 

本 书 主要 介绍 创造 简单 的 语言 处 理 吉 所 需要 的 基本 知识 以 及 工具 的 使 用 方法 ， 并 不 涉及 编程 语 
言 实现 的 较 难 部 分 。 相 较 于 理论 背景 ， 我 更 想 把 重点 放 在 如 何 设 计 编程 语言 上 。 
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微机 杂志 中 介绍 的 Tiny 语 言 





GAME 

GAME ( General Algorithmic Micro Expressions ) 是 由 BASIC 派 生 的 Tiny 语 言 。 它 最 大 
的 特征 是 关键 字 全 部 是 符号 ， 以 及 所 有 的 语句 都 是 赋值 语句 。 
列 如 赋值 给 “? ”时 会 输出 数值 ， 反 过 来 将 “?” 赋值 给 变量 时 会 要 求 输入 数值 。 字 符 串 的 
输入 输出 使 用 "$ "”。 另 外 ， 将 行 号 赋 给 “"#” 时 为 goto 语句 ， 将 行 号 赋 给 "“! ”时 为 gosub 语句 
( 调用 子 程序 )。 
另外 ， 像 "ABC" 这 样 的 一 个 字符 串 语句 会 打印 出 字符 串 ， 后 面 有 “/” 的 话 会 换行 。 
这 是 一 门 非常 有 意思 的 编程 语言 ， 示 例 代 码 如 图 1-A 所 示 。 它 既 像 BASIC， 又 不 像 
BASIC， 请 大 家 好 好 感受 一 下 。 

GAME 是 一 门 非常 简洁 的 语言 ， 用 8080 汇编 语言 编写 的 解释 器 的 大 小 还 不 到 1 KB。 另 
外 ， 由 中 岛 联 ( 当时 居然 还 是 高 中 生 ) 开 发 的 使 用 GAME 编写 的 GAME 编译 器 ， 代 码 仅 有 
200 行 左右 。 真 不 知道 我 们 应 该 惊叹 GAME 的 语言 表现 能 力 ， 还 是 中 岛 聪 的 技术 能 力 。 























































































































































































































TL/1 

同一 时 期 在 4SC// 杂 志 上 发 表 的 Tiny 语 言 中 还 有 TL/1( Tiny Language/1 )， 它 的 名 字 应 
该 是 模仿 了 美国 IBM 公司 开发 的 编程 语言 PL/1。 与 受 BASIC 影 响 使 用 符号 的 GAME 语言 不 
同 ,，TL/1 拥 有 类 似 于 Pascal 的 语法 ， 让 人 觉得 更 加 “正常 *。 另 外 ，TL/1 的 语言 处 理 器 是 编 
译 型 的 ， 与 主体 为 解释 型 的 GAME 比 起 来 速度 更 快 。 但 实际 上 GAME 也 有 编译 器 ， 这 一 点 
我 们 在 前 文中 介绍 过 。 

TL/1 的 特征 是 语法 类 似 于 Pascal， 以 及 变量 类 型 只 有 1 字 节 的 整数 。 各 位 读者 也 许 会 想 
这 样 怎么 编写 代码 ， 不 过 当时 的 主流 CPU 是 8 位 的 ， 所 以 TL/1 设计 成 这 样 也 不 是 很 怪异 。 虽 
说 是 运行 在 8 位 CPU 上 ， 但 包括 GAME 在 内 的 其 他 语言 都 提供 了 16 位 的 整数 类 型 。 
那么 1 字 节 无 法 表示 的 超过 255 的 数值 该 如 何 编写 呢 ? 答案 是 按 字 节 进行 分 割 ， 
多 个 变量 组 合 表 示 。 比 如 用 2 个 变量 保存 16 位 整数 ， 边 看 计算 溢出 时 的 进位 标志 边 计 
算 ( 图 1-Ba )。 在 当时 的 8 位 CPU 上， 大 部 分 处 理 用 16 位 整数 就 已 经 足够 了 ( 地 址 用 16 位 的 
话 就 可 以 访问 所 有 地 址 空间 )。 作 为 Tiny 语 言 ,这 样 的 功能 已 经 足够 了 。 各 位 读者 如 果 有 兴趣 ， 
可 以 显 式 地 查看 进位 标志 ， 使 用 多 个 变量 进行 24 位 计算 或 32 位 计算 。 



















































































































































































































































































































































































































































































可 以 处 理 指 针 和 字符 串 
另外 ， 指 针 也 无 法 仅 用 1 字 节 来 表示 。 这 里 用 mem 数 组 进行 访问 ， 也 就 是 说 ， 用 下 面 表 
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达 式 中 hi,1o 表 示 的 16 位 地 址 来 访问 指定 地 址 的 内 容 。 

































































































































































已 经 足 














































































































































































































的 Pascal 和 


mem(hi, 1o) 

下 面 是 将 地 址 的 值 替换 为 v。 

memibhi, lo) s v 

当时 的 个 人 计算 机 ( 微机 ) 最 多 只 有 32 KB 的 内 存 ， 所 以 能 用 16 位 地 址 访问 就 
够 了 。 

还 有 就 是 字符 串 。 当 然 ， 我 们 也 可 以 将 字符 串 当 作 字 节 数 组 ， 对 每 个 字 节 依次 进行 操作 ， 
但 是 这 样 处 理 太 麻烦 ， 因 此 TL/1 设计 了 用 于 数据 输出 的 WRITE 语句 。 

例如 ， 用 TL/1 开 发 的 Hello World 程 序 如 图 1-Bb 所 示 。TL/1 中 变量 本 应 只 有 1 字 节 的 整 
数 ， 却 出 现 了 字符 串 。 实 际 上 ，WRITE 是 为 了 能 够 处 理 字符 串 而 单独 增加 的 语法 。 

WRITE 之 外 的 语句 是 无 法 处 理 字 符 串 的 ， 所 以 不 能 进行 普通 的 字符 串 处 理 ， 只 能 够 
操作 1 字 节 的 整数 。 现 在 看 来 可 能 会 觉得 很 不 可 思议 ， 但 是 在 不 属于 Tiny 语 言 
FORTRAN 中， 输入 输出 也 是 被 特殊 处 理 的 ， 这 在 当时 也 许 是 一 种 比较 普遍 的 做 法 。 

100---------------- Comment ------------------- 

110| 如 果 紧 接 在 行 号 之 后 的 不 是 空白 ， 则 将 该 行 作为 注释 

和 全 ====== 

130 

200 / " FOR 循环 语句 是 变量 名 = 初始 值 ， 最 终 值 . @= (变量 名 + 步 长 ) " / 

20) xL, 8) 

220 ? (6)=A 

230  @= (A+1) 

240 

300 / " IE 语句 的 例子 " / 

310 B-1,2 

320 ;=B=1 " B-1 " / 

330 ;=B=2 " B-2 " / 

340 @=(B+1) 

350 

400 / " ZBBASIT&S"3/ 

410 "A - ?" A-? 

410 "B - ?" B-? 

420 "A+ B=" ?=A " + " ?-B " = " ?-A4B / 
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430 "A * B=" ?=A " * " ?2-B " = " ?=A*B / 
440 

500 / " 数组 与 字符 输出 " / 

OS====-==-= 令 数 组 的 地 址 为 $1000 





510 D-$1000 

520 C-0,69 

S25 和 作 为 2 字 节 数 组 写 入 
530 D(C)2(C4$20) *256«C«$20 
540 @=(C+1 
560 C-0,139 














570-------- EHLIF TARR, HAAF 
580 SDRE) 

590 @=(C+1 

600 

wGo /Eon SS Co vy 
710 I-1 

720 I-I«1 

730 121000 

731* 2?(8)-I*I 

740 ;=I=10 4-760 

750 4-720 

760 

900 / "程序 结束 " / 

910 #=-1 

920 


1000 / " Em "J/ 
1010 ?(8)zI*I 
d40)2X0) — 1] 


图 1-A GAME 语言 的 示例 代码 





















































$ (a) 
& 以 "%" 开 始 的 行 是 注释 ， 当 时 不 能 使 用 日 语 
BEGIN 

A £2 255 

B := A2 % overflow 

C :2 0 ADC 0 3$ add with carry 
END 
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BEGIN 
WBITE(0: "hello, world", CRDBE) 
END 





1-B TL/1 语言 的 示例 代码 


本 节 相 当 于 从 2014 年 4 月 刊 开始 连载 的 第 一 期 内 容 。 我 热忱 地 讲述 了 编程 语言 的 设计 。 

在 第 一 期 的 时 候 ， 我 还 没有 想 好 要 设计 开发 一 门 什么 样 的 编程 语言 。 当 时 我 打算 改造 一 下 
自己 编写 的 语言 处 理 器 mruby， 因 此 在 连载 时 介绍 了 mruby 源 代码 的 获取 方法 以 及 代码 目录 结 
构 等 内 容 。 不 过 在 实际 操作 中 完全 没 用 上 mruby 的 源 代码 ， 所 以 本 书 省 略 了 这 部 分 内 容 。 
虽然 本 书 不 会 涉及 这 部 分 内 容 ， 但 由 于 mruby 比较 简单 ， 所 以 它 还 是 很 适合 作为 编程 语 
言 的 实现 的 教材 来 使 用 的 。 如 果 有 读者 想 阅 读 mruby 的 源 代码 进行 学 习 ， 可 以 从 http://www. 
mruby.org/ 这 个 网 址 开始 各 种 尝试 。 另 外 ，mruby 的 源 代 码 可 以 从 GitHub 网 站 ( https:// 
github.com/mruby/mruby ) 上 下 载 。 

如 果 在 学 习 的 过 程 中 有 什么 疑问 、 意 见 ， 或 者 发 现 了 错误 ， 请 通过 GitHub 的 问题 追踪 器 
报告 给 我 们 。 现 在 mruby 的 开发 正 朝 着 国际 化 方向 发 展 ， 因 此 建议 使 用 英语 描述 问题 。 另 外 ， 
大 家 也 可 以 通过 我 的 推 特 账号 ( Gyukihiro matz ) 用 英语 或 日 语 与 我 交流 。 







































































































































































































































































-2 Ipsi SEA 


本 节 将 简单 地 讲解 编程 语言 与 语言 处 理 器 的 关系 以 及 语言 处 理 器 的 结构 ， 为 开始 设计 



































编程 语言 做 准备 。 我 们 首先 会 制作 一 个 计算 器 程序 ， 同 时 也 将 以 mruby 的 实现 为 例 ， 
介绍 一 下 实用 的 语言 处 理 器 。 



































虽说 我 们 要 创造 一 门 编程 语言 ， 但 具体 要 做 什么 ， 恶 人 没有 多 少 人 能 回答 得 上 来 吧 。 这 是 因为 
大 部 分 人 只 去 学 习 现 有 的 语言 ， 从 未 考虑 过 设计 一 门 语言 。 








语言 和 语言 处 理 器 








编程 语言 拥有 多 层 构 造 。 首 先 ， 在 大 的 层面 上 ， 可 将 编程 语言 分 为 表示 交流 规则 的 “语言 ”和 
处 理 此 语言 使 其 在 计算 机 上 运行 的 “语言 处 理 器 "。 很 多 人 在 使 用 “编程 语言 ”这 个 词 时 ， 往 往 都 
会 将 语言 和 语言 处 理 带 混同 起 来 。 

语言 是 由 语法 和 词汇 构成 的 。 语 法 是 一 种 规则 ， 规 定 了 在 该 语言 中 如 何 表述 才能 使 程序 有 效 ; 
而 词汇 是 能 从 使 用 该 语言 编写 的 程序 中 调用 的 功能 的 集合 ， 之 后 会 以 库 的 形式 逐渐 增加 。 在 设计 语 
言 的 场景 中 说 起 词汇 ， 就 是 指 该 语言 一 开始 就 具备 的 内 置 功能 。 

不 知道 大 家 有 没有 注意 到 ， 在 定义 语法 和 词汇 的 过 程 中 并 没有 用 到 软件 。 构 思 设 计 “ 我 心中 的 
最 强 语言 ”是 不 需要 使 用 计算 机 的 。 实 际 上 ， 我 在 乡下 读 高 中 时 ， 还 没 怎么 掌握 编程 技术 ， 但 想 着 
将 来 有 一 天 或 许 自己 要 设计 开发 编程 语言 ， 就 用 自己 上 里 想 的 编程 语言 在 记事 本 上 写 了 很 多 程序 。 以 
前 回老家 时 也 找 过 那 时 候 的 记事 本 ,但 是 怎么 也 找 不 到 ,估计 是 扔 掉 了 吧 ， 想 想 就 觉得 可 惜 。 我 也 
不 记得 是 什么 样 的 语言 了 ， 不 过 好 像 是 受 了 Pascal 和 Lisp 的 强烈 影响 写 出 来 的 。 

语言 处 理 絮 是 能 够 使 语法 和 词汇 在 计算 机 上 实际 运行 的 软件 。 要 想 使 编程 语言 成 为 真正 的 语 
言 ， 而 非 仅仅 停留 在 一 个 想法 上 ， 是 离 不 开 语 言 处 理 央 的。 无 法 运行 的 编程 语言 在 严格 意义 上 不 能 
称 为 编程 语言 。 



































































































































语言 处 理 器 的 结构 














当 你 打算 制作 语言 处 理 器 时 ， 如 果 不 了 解 语言 和 语言 处 理 需 究竟 是 什么 结构 ， 就 无 法 实现 你 的 
创作 愿望 。 方 便 起 见 ， 这 里 我 们 使 用 现成 的 语言 处 理 咒 来 介绍 一 下 语言 处 理 器 的 结构 。 我 们 先 不 拘 
泥 于 技术 细 广 ， 来 了 解 一 下 语言 处 理 融 的 概况 。 
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语言 处 理 器 是 计算 机 科学 的 集合 ， 是 一 款 非 常 有 意思 的 软件 。 计 算 机 专业 的 大 学 生 应 该 多 少 都 
学 过 语言 处 理 器 的 制作 方法 ， 可 以 说 语言 处 理 器 是 计算 机 科学 的 基础 〈 之 一 ) 这 就 能 够 解释 为 什 
么 有 关 语 言 处 理 带 的 图 书 比 比 丝 是 了 。 

但 是 很 多 介绍 自制 编程 语言 的 方法 的 书 ， 都 将 过 多 的 笔墨 用 在 了 介绍 语言 处 理 器 的 制作 方法 
上 ， 几 乎 没有 一 本 书 涉及 语言 设计 的 相关 知识 。 可 能 这 些 书 所 说 的 “自制 编程 语言 的 方法 ”就 等 同 
于 “语言 处 理 需 的 制作 方法 ”， 因 此 这 么 写 也 无 可 厚 非 。 这 些 书 的 目的 是 教 给 你 自制 编程 语言 的 方 
法 〈 即 语言 处 理 咒 的 制作 方法 )， 至 于 你 是 否 真 的 会 去 制作 ， 则 不 是 它们 要 考虑 的 范围 。 

而 本 书 将 焦点 放 在 了 语言 的 设计 上 。 不 过 ， 像 曾经 的 我 那样 只 是 在 记事 本 上 写 下 自己 空想 的 
“理想 语言 ”是 没有 现实 意义 的 ， 因 此 我 会 先 讲 解 一 下 语言 处 理 器 的 基础 知识 作为 导入 。 

首先 我 们 来 了 解 一 下 语言 处 理 絮 的 构成 。 












































源 代 码 
语言 处 理 器 的 构成 Y (运行 ) 


中 间 代 码 


语言 处 理 需 大 体 上 可 分 为 解释 语法 的 “编译 顺 ”、 














相当 于 词汇 的 “ 库 ”， 以 及 实际 运行 软件 所 需 的 “运行 

时 ( 系统 。 这 三 大 构成 要 素 的 比重 会 因 语 言 和 处 理 

器 性 质 的 不 同 而 发 生变 化 (图 1-2 )。 图 1-2 语言 处 理 器 的 构成 要 素 
早期 出 现 的 语言 ， 比 如 TinyBASIC 这 样 简单 的 语 源 代码 

言 ， 语 法 较 少 ， 编 译 器 基本 不 做 什么 事情 ， 主 要 的 处 Y (运行 ) 








理 都 在 运行 时 完成 。 这 样 的 处 理 器 称 为 “解释 器 ” 
( interpreter ) ( 图 1-3 )。 

但 是 这 样 纯粹 的 解释 型 语言 越 来 越 少 了 。 现 在 很 
多 语言 的 处 理 器 都 是 先 将 程序 编译 为 内 部 代码 ， 再 在 “图 1-3 BASIC 语言 处 理 器 
运行 时 执行 内 部 代码 。 当 然 Ruby 也 是 其 中 之 一 。 这 种 。 编译 器 与 运行 时 一 体 化 的 “解释 型 ”的 例子。 在 很 多 情 

况 下 ， 库 也 不 单独 分 开 

译 器 + 运行 时 ”的 组 合 形式 ， 看 起 来 像 源 代码 未 经 
转换 就 被 直接 执行 了 ， 因 此 有 时 也 被 称 为 “解释 型 ”。 

另外 ， 像 C 语 言 这 种 在 与 机 器 非常 接近 的 层面 上 源 代码 可 执行 文件 
追求 效率 的 语言 ， 乎 不 存在 运行 时 ， 只 有 解释 语法 的 纺 Y 文件 
译 器 部 分 非常 突出 ， 这 样 的 语言 处 理 器 被 称 为 “编译 编译 器 链接 器 
型 ”( 图 1-4), 语言 处 理 器 的 构成 要 素 与 语言 处 理 器 自 
身 的 分 类 同名 ， 这 容易 让 我 们 感到 混乱 。 在 C 语言 这 BE 
类 语言 中 ， 作 为 转换 结果 的 程序 ( 可 执行 文件 ) 是 可 以 pe 
直接 运行 的 软件 ， 所 以 不 需要 负责 运行 的 运行 时 。 部 分 erosut "mmm" WIF. HATHAT 


大 | 


运行 时 的 工作 ， 比 如 内 存 管理 等 ， 由 库 和 操作 系统 的 系 ”可 以 被 直接 运行 ， 所 以 几乎 没有 等 同 于 运行 时 的 部 分 ， 
统 调用 负责 库 负责 了 一 部 分 运行 时 的 工作 ( 内 存 管理 等 ) 


库 
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在 语言 处 理 器 中 ， 既 有 像 Ruby 这 样 “ 表 面 看 上 去 是 源 代码 
解释 型 但 内 部 有 编译 器 在 工作 ”的 语言 处 理 器 ， 也 有 像 












































Java 这 样 “表面 看 上 去 是 编译 型 但 内 部 有 解释 器 ( 虚 | ”编译 器 es 
拟 机 ) 在 工作 ”的 语言 处 理 器 。Java 是 一 种 “混合 TE 
型 ”的 语言 ， 它 将 程序 转换 为 虚拟 机 的 机 器 码 (JVM EEN 
字 节 码 )， 并 由 虚拟 机 (JVM ) 来 执行 (图 1-5 )。 

另外 ，Java 为 了 提高 运行 效率 ， 运 行 时 采用 x 





了 将 字 节 码 转 换 为 机 带 码 的 即时 编译 ( Just In Time 


Compiler ) 等 技术 ， 变 得 越 来 越 复杂 。 图 1-5 Java 语言 处 理 器 
虚拟 机 编译 器 的 例子 。 编 译 器 输出 虚拟 机 的 机 器 码 ( 字 节 
码 )， 由 运行 时 ( 虚拟 机 ) 负责 执行 

















编译 器 的 构成 


接 下 来 ,我 们 看 一 下 语言 处 理 右 的 各 个 构成 要 素 的 内 部 构造 。 首 先是 编译 器 。 

编译 器 的 工作 是 将 编程 语言 的 源 代 码 转 换 为 可 执行 的 形式 。 

很 多 编译 器 都 会 把 转换 处 理 分 成 多 个 阶段 进行 ， 按照 源 代码 由 近 及 远 的 顺序 分 为 “词法 分 
析 ”“ 语 法 分 析 ” “代码 生 成 “优化 ”。 不 过 ， 这 只 是 一 个 大 致 的 分 类 ， 并 非 所 有 编译 带 都 会 运行 所 
有 阶段 。 

















(1) 词法 分 析 

词法 分 析 简 单 来 说 就 是 “将 源 代码 由 字符 序列 转换 为 有 意义 的 单词 (token ) 序列 ”的 工序 。 
将 只 是 字符 串 的 源 代码 整理 为 有 些许 意义 的 单词 序列 ， 后续 阶段 的 处 理 就 会 变 得 简单 。 比 如 ,将 
Ruby 程序 





puts "HelloWn" 


进行 词法 分 析 ， 转 换 为 





标识 符 ( puts ) 字符 串 ( "Hello\n" ) 


我 会 在 后 面 介绍 语法 分 析 时 解释 单词 序列 的 意思 。 

词法 分 析 的 处 理 通 常 按照 如 下 顺序 进行 : 语法 分 析 器 调用 函数 请 求 下 一 个 单词 时 ， 词 法 分 析 器 
从 函数 内 部 的 源 代 码 中 将 字符 逐个 取出 ， 整 理 为 一 个 单词 后 ， 返 回 下 一 个 单词 。 

我 们 可 以 借助 Lex 工具 根据 编写 单词 的 规则 自动 生成 词法 分 析 函 数 。 例 如 ， 为 数字 和 简单 的 四 
则 运算 生成 词法 分 析 函 数 的 lex 程序 如 图 1-6 所 示 。 

看 一 下 数值 处 的 规则 就 会 明白 ， 在 编写 构成 单词 的 模式 时 可 以 使 用 正则 表达 式 。 这 个 例子 中 
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虽然 只 有 运算 符 、 数 值 和 空格 等 ， 但 在 
这 条 延长 线 上 还 可 以 增加 各 种 各 样 的 
单词 。 这 个 lex 程序 (假定 保存 为 calc. 
1 文件 ) 用 lex 执行 后 会 生成 名 为 lex.yy.c 
的 C 文 件 。 编 译 这 个 文件 就 可 以 使 用 
yylex () 困 数 进行 词法 分 析 了 。 

像 这 样 ， 使 用 lex 即 可 简单 地 实现 词 
法 分 析 ， 但 mruby 并 没有 用 lex。 这 是 因 
为 Ruby 中 根据 语法 分 析 确定 的 状态 ， 即 
使 是 字面 相同 的 文字 ， 有 时 也 会 产生 不 
同 的 单词 。 实 际 上 lex 也 能 写 出 带 状态 的 
词法 分 析 函 数 ， 不 过 自己 编写 也 不 是 什 
么 特别 难 的 事情 ， 我 也 想 尝 试 去 写 写 看 ， 
所 以 就 没有 使 用 lex。 写 Ruby 的 时 候 ， 
我 还 很 年 轻 。 





































































































(2) 语法 分 析 

语法 分 析 是 检查 在 词法 分 析 阶 段 准 
备 好 的 单词 是 否 符合 语法 ， 并 进行 符合 
语法 的 处 理 的 工序 。 

语法 分 析 的 方法 有 好 几 种 ， 其 中 最 


























有 名 、 最 简单 的 方法 是 使 用 别名 为 “生成 编 





( yet another compiler compiler), mruby 也 








"nan return 
nu Tere b aei 
Jis recurn 

recurn 
UNTU return 


ADD; 
SUB; 
MUL; 
DIV; 


NL; 


(I1-9] [0-9] *) |o] ([0-9] +\. [0-91 *) ( 


double temp; 


sscanf (yytext, "$lf", 


&temp); 


yylval.double value - temp; 


return NUM; 


OE 


fprintf(stderr, "lexical error. Wn"); 


exit(1); 


图 1-6 为 计算 器 编写 的 lex 程序 calcll 






































译 帮 的 编译 占 ” 的 语法 分 析 函 数 生成 工具 ， 比 如 yace 





]I yacc ， 准 确 来 说 是 用 了 yace 的 GNU 版 本 bisons KR 





T yace 之 外 ， 生 成 编译 右 的 编译 器 还 有 ANTLR 和 bnfc 等 ， 这 里 就 不 一 一 介绍 了 。 
yacc 中 ， 编 译 器 解释 的 语法 是 根据 yace 编写 规则 编写 的 。 例 如 ,计算 絮 输 入 的 语法 如 图 1-7 





























所 示 。 


从 开头 到 %% 的 部 分 是 定义 部 分 ， 定 义 单词 
接 插 人 到 了 所 生成 的 C 语言 程序 中 ， 所 以 会 





























进行 头 文件 的 引用 等 。 


的 种 类 和 类 型 。 另 外 ，s{ 和 }s 之 间 的 部 分 由 于 直 






































$$ 与 $$ 之 间 的 部 分 是 计算 器 的 语法 定义 。 这 个 定义 是 以 语法 定义 规范 巴 科斯 范式 ( Backus- 
Naur Form, BNF ) 的 写法 为 基础 的 。%% 之 后 的 部 分 也 被 直接 插入 到 C 语言 程序 中 ， 因 此 动作 (action ) 





部 分 调用 的 函数 的 定义 等 会 被 放置 在 这 里 。 








查看 计算 器 的 语法 

接 下 来 我 们 看 一 下 计算 器 的 语法 。 第 一 个 例 
子 我 会 选用 非常 简单 的 语法 来 介绍 ， 与 普通 的 计 
算 絮 一 样 ， 这 里 没有 运算 符 的 优先 顺序 。 

我 们 从 第 一 个 规则 开始 看 起 。BNF 是 规则 的 
描述 ， 默 认 第 一 个 规则 在 前 面 。 第 一 个 规则 如 下 
所 示 。 









































program : statement 


| program statement 


, 


从 这 个 规则 中 我 们 可 以 看 出 ， 正 确 的 计 
算 器 语法 为 program， 意 为 “program 的 定 
义 是 在 statement 或 program 之 后 紧 跟 着 
“:” 是 定义 ,“|” 是 “或 者 ”而 
单词 的 排列 意味 着 各 部 分 的 定义 会 连接 起 来 。 在 
这 个 规则 中 ,单词 program 也 出 现在 了 右 侧 ， 形 
成 了 递归 ， 这 没有 关系 。yacc 中 就 是 像 这 样 利 用 
递归 来 写 循环 的 。 

接着 来 看 下 一 个 规则 。 








statement", 








NS 








statement : expr NL 


, 


这 个 规则 的 意思 是 “statement 的 定义 是 在 
expr 之 后 紧 接着 NL”"。 这 里 没有 定义 NL 的 意思 ， 
它 是 词法 分 析 器 碰 到 回 车 时 传 过 来 的 单词 。 

接着 再 看 expr 的 定义 。 








expr : NUM 

| expr ADD NUM 
| expr SUB NUM 
| expr MUL NUM 
| expr DIV NUM 


» 


1-2 语言 处 理 器 的 结构 


B 
s( 


dinclude «stdio.h» 


Static void 
yyerror(const char *s) 


fputs(s, stderr); 
fputs UAn U releases) 7 


) 


Secede abd 
yywrap (void) 


return 1; 


) 


op 


} 


sunion { 
double double value; 
} 


$type «double value» expr 
$token «double value» NUM 
$token ADD SUB MUL DIV NL 


program : Statement 

| program statement 
Statement : expr NL 

i 
expr NUM 


expr ADD NUM 
expr SUB NUM 
expr MUL NUM 
expr DIV NUM 


op 
op 


#include "lex.yy.c" 


int 
main() 
{ 


yyparse(); 


图 1-7. 计算 器 语法 分 析 calc.y 
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这 个 规则 的 意思 是 “expr 的 定义 是 NUM ( 表示 数值 的 单词 )， 或 者 在 expr 之 后 紧 跟着 运 
算 符 ， 再 之 后 跟着 数值 ”>。 这 里 也 用 递归 实现 了 循环 。 因 此 ,“1” 是 数值 ， 所 以 是 expt。 
“1+1” Æ expr“1” 与 运算 符 “+” 以 及 数值 的 排列 ， 所 以 也 是 expr。 同 理 ,“1+2+3” 等 也 
都 是 expr。 大 家 可 以 大 概 想 象 出 
































BNF 的 结构 了 吗 ? S lez (edle. -«—^ ny] 3 r1 
我 们 试 着 运行 一 下 前 面 编写 的 $ yacc calc.y 所 一 生成 语法 分 析 代 码 
计算 器 程序 (图 1-8)。 用 lex 执 行 % cc Y.tab.c O UN 

















$ a.out 所 一 运行 


图 1-6 的 程序 ， 用 yacc 执行 图 1-7 E PEE 
的 程序 之 后 ， 对 生成 的 名 为 ytab. 2 < 这 个 也 是 正确 的 表达 式 

c 的 C 源 文件 进行 编译 ， 就 完成 了 1 + Oo <- 尝试 错误 语法 
计算 器 的 语法 检查 。 计 算 的 部 分 完 syntax error <- 显示 错误 并 结束 

全 没有 实现 ， 所 以 只 进行 了 语法 检 ，。 “ 

查 。 如 果 输 入 的 代码 语法 正确 就 什 
么 也 不 做 ， 如 果 语 法 错误 就 会 显示 


syntax error 并 结束 运行 。 



















































































图 1-8 计算 器 程序 的 编译 和 运行 















































实现 计算 器 程序 
Statement : expr NL 

不 能 进行 计算 的 计算 器 是 没有 ( 
意义 的 ， 所 以 我 们 让 它 来 实际 计算 forinti edon o IMS 
一 下 。 在 yacc 中 ， 我 们 可 以 编写 规 
则 成 立时 运行 的 动作 。 也 就 是 说 ，。 。。 pe 
在 图 1-7 的 yacc 代码 中 添加 实际 的 | expr ADD NUM 
动作 进行 计算 和 显示 ， 计 算 器 就 完 mm 
成 了 。 具 体 来 说 ， 就 是 将 图 1-7 程序 ) 
中 的 statement 和 expr 的 规则 部 | expr SUB NUM 
分 巷 换 为 图 1-9 的 代码 。 ON 

在 这 个 计算 器 的 例子 中 ， 计 算 ) 
和 显示 直接 在 动作 部 分 进行 ， 也 就 Di E 
是 所 谓 的 “纯粹 的 解释 器 "。 然 而 在 $5 = $1 * $3; 
实际 的 编译 器 中 很 少 这 样 直接 进行 vr 
处 理 ， 因 为 无 法 支持 循环 以 及 用 户 ( 
自 定义 的 函数 。 例 如 mruby 中 创建 Se = i y San 
了 表示 语法 结构 的 树 结构 ， 并 传递 

















给 后 续 的 代码 生成 处 理 。 我 们 来 看 
一 个 创建 树 结构 的 例子 : 将 mruby 图 1-9 计算 器 程序 的 动作 
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的 if£ 语句 转换 为 图 1-10 中 的 s 表 
达 式 (本 质 是 结构 体 的 链接 )。 us 
puts "true" 
(3) 代码 生成 else 
在 代码 生成 处 理 中 ,除了 遍历 QR Tase! 
语法 分 析 处 理 中 生成 的 树 结构 之 外 ， T 
还 会 生成 虚拟 机 的 机 器 码 。 0 
好 像 自 Java 虚拟 机 兴起 后 ， 这 (fcall "puts" "trued") 
(Eeen ou Es Mialet) 


fh “EDLAS HLR” WE ERN 
“ 字 节 码 ”。 的 确 ，Java 虚拟 机 的 机 


图 1-10. mruby 语法 树 的 结构 


器 码 是 以 字 节 为 单位 的 ， 所 以 叫 字 








节 码 也 无 可 厚 非 〈 其 前 身 Smalltalk 也 是 以 字 节 为 单位 的 字 节 码 )。 但 mruby 的 机 器 码 是 32 位 的 ， 





因此 称 它 为 “ 字 码 ”( word code) 可 能 更 合适 。 昌 
J], E mruby 内 部 就 称 为 iseq (instruction 














日 于 字 节 码 这 个 称谓 不 够 准确 ， 字 码 这 一 术语 又 不 
sequence， 指 令 序 列 )。 另 外 , 在 iseq 上 附加 了 符 




















Jom 


symbol) 等 信息 的 程序 信息 ( 代码 生成 的 最 
mruby 的 代码 名 


3 











E 成 处 理 并 没有 做 很 允 








的 分 析 。 











接生 成 代码 也 是 可 能 的 。 但 mruby 出 于 各 种 原因 还 是 将 代码 生成 处 理 拆 分 为 了 几 个 阶段 ， 采 


似 于 S 表达 式 的 树 结构 作为 中 间 代 码 。 


mruby 中 对 代码 生成 处 理 进 行 了 拆 分 

这 么 做 的 第 一 个 原因 是 考虑 到 了 可 维护 仅 
大 小 也 会 因此 而 缩小 ( 尽管 缩小 得 不 多 )， 但 语法 
问题 也 不 易 被 发 现 。 











动作 部 分 是 根据 与 规则 的 模式 匹配 的 顺序 被 调 
护 性 ， 采 用 在 动作 部 分 只 生成 语法 树 这 种 简单 的 结构 才 是 明 











li , 
之 举 。 


调试 起 来 也 非常 困难 。 考 虑 到 可 绢 
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终结 


ZMA 





E) 被 称 为 irep (internel representation, ŠB 























如 果 想 深度 分 析 ， 在 语法 分 析 人 处 理 的 动作 部 分 直 


了 类 
































E。 在 语法 分 析 的 动作 部 分 的 确 可 以 生成 代码 ， 程 序 的 


分 析 与 代码 生成 的 一 体 化 会 使 程序 变 得 更 加 复杂 ， 











] 的 ， 因 此 相 比 程序 化 的 动作 ， 运 行 顺序 难以 预 














这 样 一 来 ， 对 于 通信 式 mruby 来 说 ， 内 存 使 


j 量 的 增加 将 令 人 担忧， 但 幸运 的 是 编译 部 分 ( 包 











含 语法 分 析 和 代码 生成 部 分 ) 可 以 在 运行 的 时 候 被 分 离 出 来 。 也 就 是 说 ， 将 Ruby 程序 预先 转换 为 
irep， 那 么 在 运行 的 时 候 就 不 需要 进行 编译 了 。 这 样 处 理 有 助 于 节约 内 存 ， 即 使 在 内 存 容 量 较 小 的 














环境 


将 语法 


P ， 我 们 也 不 必 过 于 担心 内 存 使 用 量 。 














T 








分 析 结 果 的 树 结构 进行 代码 生成 处 理 后 ， 就 会 生成 图 1-11 那样 的 irepo ireq 原本 是 二 进 
制 文件 〈 结 构 体 )， 不 易 理 解 ， 因 此 就 把 它 转换 成 这 种 我 们 能 理解 的 形式 了 。 
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局 部 变量 的 数量 符号 的 数量 
pep 使 用 的 ron | 常量 的 数 引用 的 irep 数 量 
Y 
irep 0x86ec8b8 nregs-4 nlocals-2 pools-2 syms-1 reps-0 
000 OP LOADF R1 拟 一 将 R1 赋 值 为 false 
001 OP JMPNOT R1 006 所 一 如 果 R1 为 假 就 跳 转 到 006 
002 OP LOADSELF R2 -«—En2llit AA self 
003 OP_STRING R3 "true" < ÉRE 7 "true" 
004 OP SEND R2 :puts í 拟 一 调用 R2 的 puts 方 法 
005 OP JMP 009 所 一 跳 转 到 009 
006 OP LOADSELF R2 所 一 将 R2 赋 值 为 self 
007 OP STRING R3 "false" < RAA" false" 
008 OP_SEND R2 purs < 一 调 用 R2 的 puts 方 法 
009 OP STOP < -运行 结束 
图 1-11 代码 生成 结果 ( irep ) 
(4) 优化 
根据 实现 方式 的 不 同 ， 编 译 器 有 时 会 在 代码 生成 前 后 进行 优化 处 理 。 在 mruby 的 情况 下 ， 由 
T Ruby 语言 的 特性 使 其 很 难 进行 优 ，” 表 1-1 mruby 的 优化 
， 所 以 只 在 代码 处 理 的 过 程 
e ME TI 
中 进行 极 少 的 优化 。 和 
" 、，、 ,uy «cn odmgno | 删除 没有 意义 的 赋值 R1-R1 删除 
这 种 优化 被 称 为 “ 舌 孔 优化 WIS ; z m 
余 交 换 指 仿 R2-R1;R1-R R2-R 
( peephole optimization), E18 E : Ed nd 
: KT EM Bi Ja RR R2-R1; R3-R2 R3-R1 
成 时 仅 参 考 正 前 方 的 指令 来 进行 可 
能 的 优化 。mruby 编译 器 实施 的 部 “国生 irn 
分 优化 如 表 1-1 所 示 。 删除 重复 的 return 指 令 return; return return 
编译 处 理 之 后 
mruby 在 编译 处 理 结束 之 后 执行 的 处 理 有 两 种 : 一 种 是 直接 运行 编译 结果 ， 运 行 时 使 用 mruby 


适 




















z 




















] 的 虚拟 CPU， 在 运行 虚拟 CPU 时 ， 也 会 使 用 对 象 管理 等 运行 时 和 库 ; 
TIER, xh 





FEY. AAFAA RARA RR ER VUE 7 TRU RII 73 

















另外 一 种 是 将 编译 结果 





能 够 生成 直接 链接 编译 结果 的 程序 ， 能 够 在 去 掉 编 译 器 的 状态 下 执行 Ruby 
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介绍 了 语言 处 理 器 的 构成 ， 但 并 没有 涉及 语言 设计 的 内 容 ， 虽 然 我 对 此 感到 不 大 满意 ， 但 
为 了 能 介绍 得 更 详细 ， 也 只 好 这 样 了 。 


时 光 机 专栏 
讲解 语言 处 理 器 是 一 件 困难 的 事情 














本 节 是 杂志 2014 年 5 月 刊 中 刊登 的 内 容 ， 介 绍 了 语言 处 理 器 相关 图 书 中 都 会 提 到 的 yacc 
的 使 用 方法 等 。 其 中 用 了 很 老 的 计算 器 程序 作为 示例 ， 令 我 有 些 汗颜 。 

不 过 ,值得 肯定 的 一 点 是 ， 除 了 计算 器 这 种 “小 儿科 ”的 程序 之 外 ， 本 节 还 介绍 了 mruby 
这 个 实用 的 语言 处 理 器 的 构成 。 之 所 以 介绍 这 部 分 内 容 ， 是 因为 无 法 用 计算 器 程序 讲解 代码 生 
成 和 优化 。 
虽说 如 此 ， 本 节 也 仅 限 于 向 大 家 介绍 了 “有 这 种 东西 存在 "， 对 此 我 有 些 遗憾 。 让 我 感到 
左右 为 难 的 是 ， 过 于 详细 讲解 mruby 的 实现 会 使 内 容 变 得 太 难 ， 可 是 不 提 的 话 自己 又 觉得 不 满 
意 。 真 是 难以 抉择 。 

本 节 介 绍 的 yacc 编写 规则 会 在 后 面 介绍 Streem 的 实现 时 多 次 出 现 ， 届 时 本 节 的 内 容 就 会 
起 到 作用 。 





























































































































































































































虚拟 机 























节 将 介绍 编程 语言 处 理 器 的 核心 部 分 
介绍 








虚拟 机 ( Virtual Machine, VM ) 的 实现 。 



































我 们 在 1-2 节 中 讲 过 ， 
虚拟 机 就 是 其 中 之 一 。 


用 软件 实现 的 CPU 来 运行 


虚拟 机 这 个 单词 有 多 种 不 同 的 含义 ， 本 
节 中 指 “ 用 软件 实现 的 (无 实际 硬件 的 ) 计 
算 机 ”。 

这 与 在 虚拟 机 软件 和 云 计 算 等 语 境 中 出 
现 的 虚拟 机 的 含义 不 同 。 在 虚拟 机 软件 等 语 
境 中 ， 虚 拟 机 是 指 通过 把 实际 存在 的 硬件 用 
某 种 软件 封装 进行 虚拟 化 ， 从 而 实现 多 个 系 
统 的 同时 运行 以 及 系统 在 硬件 间 的 迁移 。 维 
基 百 科 中 把 这 种 虚拟 机 归 类 到 了 “系统 虚拟 
机 ”中 ， 而 把 本 节 所 要 介绍 的 虚拟 机 归 类 到 
了 “进程 虚拟 机 ”中 。 

Ruby 到 版 本 1.8 为 止 都 没有 实现 C iE 
Ti) 虚拟 机 ， 而 是 通过 遍历 编译 器 生成 的 语 
法 树 ( 支持 用 指针 链接 起 来 的 结构 体 所 实现 
的 Ruby 程序 语法 的 树 结 构 ) 来 运行 程序 的 
(图 1-12 )。 这 种 方法 虽然 非常 简单 ， 但 每 执 
行 一 个 指令 都 要 访问 指针 ， 成 本 不 容 小 裔 。 
TE Ruby 1.8 出 来 之 前 大 家 都 说 Ruby 很 慢 ， 
这 就 是 其 中 一 个 原因 。 




















本 
在 介绍 完 用 于 实现 虚拟 机 的 四 大 技术 之 后 ， 我 们 将 看 一 下 mruby 的 虚拟 机 实际 拥有 的 
指 























运行 源 代码 编译 结果 的 是 运行 时 。 运 行 时 有 多 种 实现 方法 ， 本 节 要 讲 的 


int 
vm(node* node) { 

while (node) { 
(node-»type) ( 
case NODE ASSIGN: 

/* 赋值 处 理 */ 


switch 








break; 
case NODE CALL: 
/* 方法 调用 处 理 */ 


























break; 


} 
/* 跳 到 下 一 个 节点 */ 
node = node-»next; 
) 
} 





/* «— 这 里 慢 */ 


图 1-12 语法 树 解释 器 ( 概要 ) 
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为 什么 以 前 的 Ruby 很 慢 


我 觉得 需要 说 明 一 下 为 什么 这 么 简单 的 结构 运行 速度 会 那么 慢 。 大 家 都 知道 硬盘 的 访问 速度 要 
比 内存 的 访问 速度 慢 很 多 ， 可 内 存 的 访问 速度 又 如 何 呢 ? 大 家 平常 写 代码 时 ， 很 少 会 注意 内 存 的 速 
度 吧 。 

但 实际 上 ，CPU 与 内 存 之 间 的 距离 出 乎 意料 地 远 。 与 CPU 的 执行 速度 相 比 ， 通 过 内 存 总 线 读 
取 指 定 地 址 的 数据 的 速度 要 慢 很 多 。 在 访问 内 存 时 ，CPU 只 能 等 待 数据 的 到 来 ， 这 个 等 待 时 间 就 会 
对 执行 速度 产生 影响 。 

为 了 削减 这 样 的 等 待 时 间 ，CPU 中 内 置 了 “内 存 缓存 ”( memory cache ) 的 机 制 ， 该 机 制 简称 
H “RTE o RIFE CPU 电路 中 财 入 的 小 容量 的 高 速 内 存 。 通 过 事先 将 数据 从 主 存 读 取 到 缓存 中 ， 
把 对 内 存 的 读 写 转化 为 对 高 速 缓存 的 读 写 ， 能 够 削减 访问 内 存 的 等 待 时 间 ， 提 高 处 理 速度 。 
由 于 缓存 必须 嵌入 到 CPU 内 部 ， 所 以 其 容量 有 着 严格 的 限制 ， 能 够 预先 读 入 的 数据 很 少 ”。 为 
了 有 效 利用 缓存 ， 需 要 把 接 下 来 要 访问 的 内 存 空 间 事先 读 取 到 缓存 中 ,但 这 是 非常 困难 的 。 一 般 来 
说 ， 只 有 在 形成 内 存 访问 局 部 性 时 才 可 能 做 到 。 也 就 是 说 ， 由 于 程序 一 次 性 访问 的 内 存 空间 非常 小 
且 距 离 非常 近 ， 所 以 会 对 一 次 性 读 取 到 缓存 的 内 存 空 间 进行 多 次 读 写 。 






































在 虚拟 机 上 灵活 运用 缓存 


遗憾 的 是 ， 从 缓存 访问 的 立场 来 看 ， 图 1-12 那样 的 语法 树 解释 器 是 最 糟糕 的 。 构 成 语法 树 的 
节点 都 是 一 个 个 单独 的 结构 体 ， 各 自 的 地 址 不 一 定 邻 近 ， 也 不 会 连续 。 这 就 导致 难以 事先 将 接 下 来 
要 访问 的 内 存 空 间 读 入 到 缓存 中 。 

这 里 如 果 将 语法 树 转 换 为 指令 序列 ， 并 储存 到 连续 的 内 存 空间 上 ， 那 么 内 存 访问 局 部 性 就 会 有 
所 增强 ， 性 能 也 会 因为 缓存 的 作用 而 得 到 极 大 的 提升 。 

Ruby 1.9 中 引入 的 被 称 为 YARYV 的 虚拟 机 就 使 用 这 样 的 方法 实现 了 性 能 提升 。YARYV 是 Yet 
Another Ruby VM ( 男 一 个 Ruby 虚拟 机 ) 的 缩写 。 之 所 以 叫 这 个 名 字 ， 是 因为 当初 开发 时 已 经 有 多 
个 以 运行 Ruby 为 目的 的 虚拟 机 在 开发 了 。 起 初 ，YARV 只 是 一 个 实验 项 目 ， 但 在 这 些 虚 拟 机 中 只 
有 它 达到 了 能 运行 Ruby 语言 全 部 特性 的 效果 ， 因 此 最 终 YARV 替代 了 Ruby 自己 的 虚拟 机 。 






























































虚拟 机 的 优点 和 缺点 


采用 虚拟 机 的 语言 中 最 有 名 的 应 该 是 Java 了 吧 ， 但 虚拟 机 这 项 技术 并 不 是 在 Java 中 首次 出 现 
的 ， 而 是 在 20 世纪 60 年 代 后 期 就 已 经 有 了 。 比 如 ，20 世纪 70 年 代 初 出 现 的 Smalltalk 语言 就 因 
从 早期 就 采用 了 字 节 码 而 名 声 大 品 (这 只 是 部 分 原因 )。 再 往 前 说 ， 后 来 设计 了 Pascal 语言 的 尼 古 
CD 现在 的 CPU 都 把 缓存 分 为 多 个 层级 来 增 大 缓存 容量 。 即 便 如 此 ， 容 量 还 是 比 主 存 小 得 多 ， 而 且 也 没有 解决 难以 事 

先 将 接 下 来 要 访问 的 内 存 空 间 读 和 到 缓存 的 问题 。 
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拉 斯 ， 沃 斯 (Niklaus Wirth ) 以 Algol168 语言 为 基础 设计 的 Eular 语言 据说 也 完成 了 虚拟 机 的 实现 。 
Smalltalk 之 父 艾 伦 : 凯 ( Alan Kay ) 说 ，Smalltalk 的 虚拟 机 的 实现 受到 了 Eular 的 虚拟 机 的 启发 。 

说 起 Pascal 就 会 想起 UCSD Pascal。 由 加 州 大 学 圣地 亚 哥 分 校 开 发 的 UCSD Pascal 把 Pascal 程 
序 变更 为 字 节 码 P-code 之 后 运行 。 将 Pascal 程序 变更 为 P-code， 可 以 轻松 地 将 UCSD Pascal 移植 
到 各 种 操作 系统 和 CPU 的 计算 机 上 ， 这 也 使 得 UCSD Pascal 作为 具有 较 强 移植 性 的 编译 器 被 广泛 
使 用 。 

从 这 里 我 们 就 能 明白 ， 虚 拟 机 最 大 的 优点 就 是 拥有 可 移植 性 。 配 合 各 种 各 样 的 CPU 生成 机 器 
语言 的 代码 生成 处 理 是 编译 器 中 最 复杂 的 部 分 。 根 据 后 续 出 现 的 各 种 CPU 重新 开发 代码 生成 处 理 ， 
对 语言 处 理 器 的 开发 者 来 说 是 很 大 的 负担 。 

现在 x86 和 ARM 等 架构 占据 统治 地 位 ，CPU 的 种 类 比 以 往 减少 了 许多 ， 但 在 20 世纪 六 七 十 
年 代 ， 新 架构 层出不穷 ， 甚 至 同一 家 公司 的 同一 系列 的 计算 机 也 会 根据 型 号 而 使 用 不 同 的 CPU。 虚 
拟 机 在 减少 这 类 负担 上 起 到 了 很 大 作用 。 

另外 ， 虚 拟 机 能 够 配合 目标 语言 进行 设计 ， 因 此 我 们 就 可 以 将 指令 集 的 范围 限定 在 实现 这 个 语 
言 所 必需 的 指令 中 。 与 通用 CPU 相 比 ， 可 以 缩小 规格 ， 开 发 也 变 得 更 简单 。 

但 虚拟 机 并 非 只 有 优点 。 与 在 硬件 上 直接 执行 相 比 ， 模 拟 虚 拟 的 CPU 运行 的 虚拟 机 在 性 能 
有 很 大 的 问题 。 采 用 了 虚拟 机 的 语言 处 理 器 会 产生 几 倍 ， 甚 至 几 百 倍 的 性 能 损失 。 不 过 我 们 可 以 使 
J JIT 编译 等 技术 在 一 定 程 度 上 减少 这 种 性 能 损失 。 





































































































虚拟 机 的 实现 技术 


用 硬件 实现 的 真正 的 CPU 与 用 软件 实现 的 虚拟 机 在 性 能 上 各 有 不 同 。 下 面 我 们 来 看 一 下 虚拟 
机 性 能 相关 的 实现 技术 ， 以 下 是 具有 代表 性 的 几 种 。 




















(1) RISC 与 CISC 
(2) 栈 与 寄存 器 
(3) 指令 格式 

(4) 直接 跳 转 























RISC 是 Reduced Instruction Set Computer ( 精简 指令 集 计算 机 ) 的 缩写 ， 是 通过 减少 指令 的 种 
类 、 简 化 电路 来 提高 CPU 性 能 的 架构 。 在 20 世纪 80 年 代 流 行 的 架构 中 ， 具 有 代表 性 的 CPU 有 
MIPS 和 SPARC 等 。 在 移动 设备 上 广泛 使 用 的 ARM 处 理 器 就 属于 RISC。 

CISC 是 与 RISC 相对 的 一 个 词汇 ， 是 Complex Instruction Set Computer ( 复杂 指令 集 计 算 机 ) 
的 缩写 ， 简 单 来 说 就 是 “不 是 RISC 的 CPU”。CISC 的 每 个 指令 执行 的 处 理 都 非常 大 ， 而 且 指令 的 
种 类 繁多 ， 因 此 实现 起 来 也 比较 复杂 。 

不 过 ，RISC 与 CISC 的 对 立 是 21 世纪 之 前 的 事情 了 ， 在 如 今 的 硬件 CPU HH, RISC 与 CISC 
的 对 立 没 有 任何 意义 。 这 是 因为 纯粹 的 RISC 的 CPU 失去 了 人 和 气 ， 现 在 已 经 很 少见 到 了 。 即 便 如 
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此 ，SPARC 还 是 存活 了 下 来 ， 被 日 本 超级 计算 机 “ 京 ” 等 设备 采用 。 

RISC 中 前 景 较 好 的 ARM 也 在 不 断 增 加 指令 ， 朝 着 CISC 的 方向 发 展 。 而 作为 CISC 代表 架构 
的 英特尔 x86, 通过 在 表面 上 提供 复杂 的 指令 集 ”以 维持 与 过 去 版 本 的 兼容 性 , 并 在 内 部 把 指令 转换 
为 类 RISC 的 内 部 指令 (h op )， 从 而 实现 了 高 速 运 行 。 




















CISC 在 虚拟 机 上 有 优势 


但 对 虚拟 机 来 说 ，RISC 和 CISC 之 争 有 不 同 的 意义 。 如 果 是 用 软件 实现 的 虚拟 机 ， 我 们 就 不 能 
忽视 取 指 令 〈Instruction Fetch, IF) 处 理 所 需 要 的 成 本 。 也 就 是 说 ， 做 同样 的 处 理 时 所 需 的 指令 数 
越 少 越 好 。 好 的 虚拟 机 指令 集 是 类 CISC 架构 的 指令 集 ， 它 的 全 部 指令 都 是 高 粒度 的 。 
虚拟 机 的 指令 要 尽 可 能 地 抽象 ， 程 序 设计 得 小 一 些 会 比较 好 。 有 些 虚拟 机 以 紧凑 化 为 目标 ， 提 
供 复 合 指令 ， 把 频繁 被 连续 调用 的 多 条 指令 整合 为 一 条 ， 这 样 的 技术 称 为 “指令 融合 ”或 “super 


» 
operator 。 



































push 1 «— 4) 向 栈 push 1 
栈 与 寄存 器 push 2 < 一 (2) 向 栈 push 2 
、 dd -— (3) 将 栈 中 的 两 个 数 相 加 ， 然 后 将 结果 push 到 栈 中 

虚拟 机 架构 的 两 大 流派 是 C d Bos 


栈 式 虚 拟 机 和 寄存 器 式 虚 拟 机 。 执行 各 指令 时 栈 的 状态 
栈 式 虚拟 机 原则 上 通过 栈 对 数 D 回 @ 
据 进行 操作 (图 1-13), 而 寄存 top| 2 


器 式 虚 拟 机 的 指令 中 包含 寄存 top | 1 | top | 3 | 


器 编号 ， 原 则 上 对 寄存 器 进行 


























操作 (图 1-14)。 图 1-13 ” 栈 式 虚 拟 机 的 指令 及 其 结构 
load R1 1 -— CD 将 第 1 个 寄存 器 赋值 为 1 
load R2 2 -«— (2) 将 第 2 个 寄存 器 赋值 为 2 





add R1 R1 R2 < 一 (9 将 第 1 个 寄存 器 和 第 2 个 寄存 器 的 数值 相 加 ， 并 将 结果 保存 到 第 1 个 寄存 器 


图 1-14 寄存 器 式 虚拟 机 的 指令 


与 寄存 咒 式 虚拟 机 相 比 ， 栈 式 虚 拟 机 更 为 简单 ， 程 序 也 相对 较 小 。 然 而 ， 由 于 所 有 的 指令 都 通 
过 栈 来 交换 数据 ， 所 以 对 指令 之 间 的 先后 顺序 有 很 大 的 依赖 ， 很 难 实施 交换 指令 顺序 这 样 的 优化 。 

而 寄存 器 式 虚拟 机 由 于 指令 中 包含 寄存 器 信息 ， 所 以 程序 相对 较 大 。 这 里 需要 注意 的 是 ， 程 序 
大 小 与 取 指令 处 理 的 成 本 不 一 定 相 关 ， 这 一 点 我 们 在 后 面 也 会 捍 到。 另外， 寄存器 式 虚 拟 机 由 于 显 
式 指定 了 寄存 器 ， 所 以 对 指令 顺序 依赖 较 小 ， 优 化 空间 较 大 。 不 过 ， 人 小 规模 语言 高 度 优化 的 例子 几 






















































































QD 前 几 天 有 消息 称 x86 的 move 指令 过 于 复杂 ， 仅 用 这 个 指令 就 可 实现 图 灵 完 全 。 也 就 是 说 ， 理 论 上 仅 用 move 指 
令 就 能 编写 出 任何 算法 。 
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乎 不 存在 ， 所 以 这 一 点 也 就 没 那么 重要 了 。 
那么 栈 式 虚拟 机 和 寄存 器 式 虚拟 ” 表 1-2 各 种 语言 的 虚拟 机 架构 


机 哪个 更 好 呢 ? 这 个 问题 现在 还 没有 虚拟 机 






































定论 ， 使 用 这 两 种 架构 的 虚拟 机 都 有 Java JVM 栈 式 虚拟 机 
很 多 。 表 1-2 展示 了 这 两 种 架构 在 各 Java Dalvik ( Android ) 寄存 器 式 虚 拟 机 
种 语言 的 虚拟 机 中 的 使 用 情况 。 我 们 Ruby YARV (Ruby 1.9 之 后 的 版 本 ) — 栈 式 虚拟 机 
发 现 ， 即 使 是 同一 语言 ， 也 会 因 实 现 Ruby mruby 寄存 器 式 虚拟 机 
的 不 同 而 采用 不 同 的 架构 ， 有 时 采用 De Ma I RR 
Python CPython 栈 式 虚拟 机 


栈 式 虚拟 机 ， 有 时 采用 寄存 咒 式 虚拟 
机 。 这 种 现象 很 有 趣 。 


引 令 格式 

Smalltalk 出 现 之 后 ， 虚 拟 机 解释 的 机 咒语 言 〈 指令 序列 ) 就 开始 被 称 为 字 节 码 了 。 这 是 因为 
Smalltalk 的 指令 是 以 字 节 为 单位 的 。 后 来 “ 字 节 码 ” 这 个 单词 被 继承 了 字 节 单位 这 一 特性 的 Java 
发 扬 光 大 。 

不 过 ,不 是 所 有 虚拟 机 都 拥有 字 节 单位 的 指令 集 ， 例 如 YARV 和 mruby 的 指令 集 就 是 用 32 位 
整数 表示 的 。 对 很 多 CPU 来 说 ，32 位 整数 是 最 容易 处 理 的 长 度 ， 多 被 称 为 “ 字 ”( word )， 所 以 这 
些 指 令 序列 的 学 名 叫 “ 字 但 ”可 能 更 为 合适 。 但 是 “ 字 码 ”这 个 词 不 仅 不 好 读 ， 还 不 容易 让 人 理 
解 ， 所 以 完全 没有 得 到 普及 ， 以 至 于 人 们 慢 慢 地 就 放弃 了 ， 有 时 就 直接 管 它 叫 字 节 码 了 。 



















































































字 码 的 优 缺 点 

字 节 码 与 字 人 码 都 有 各 自 的 优 缺 点 。 与 每 个 指令 必定 消耗 32 位 的 字 码 相 比 ， 字 节 码 的 程序 更 加 
紧凑 。 男 一 方面 ， 由 于 字 节 码 中 的 1 个 字 节 相当 于 8 位 ， 只 能 表示 256 个 状态 ， 所 以 操作 数 ( 指令 
的 参数 ) 只 能 保存 在 指令 之 后 的 字 节 中 ， 这 样 就 会 增加 从 指令 序列 中 取出 数据 的 取 指 令 次 数 。 前 面 
了 电 说 过 ， 在 用 软件 实现 的 虚拟 机 中 ， 取 指令 处 理 的 成 本 较 高 ， 因 此 字 码 在 性 能 上 更 有 优势 。 
另外 ， 字 码 在 “地 址 对 齐 ” 这 一 点 上 也 有 优势 。 在 一 些 CPU 中 ,地址 如 果 不 是 特定 数 的 倍数 ， 
直接 对 其 进行 访问 就 会 出 错 。 在 这 种 情况 下 就 需要 从 已 对 齐 的 〈 地 址 统一 为 特定 数 的 倍数 ) 地 址 中 
取出 数据 ， 将 偏 移 的 部 分 切取 出 来 。 即 便 访问 不 会 出 错 ， 成 倍数 的 地 址 与 不 成 倍数 的 地 址 ( 因为 在 
内 部 进行 了 前 文 所 述 的 切取 等 ) 在 访问 速度 上 也 会 有 很 大 差别 。 
地 址 为 2 的 倍数 称 为 16 位 对 齐 ， 为 4 的 倍数 称 为 32 位 对 齐 。 字 码 中 所 有 的 指令 都 必须 符合 地 
址 对 齐 这 一 标准 ， 字 节 码 则 并 非 如 此 。 根 据 CPU 种 类 和 地 址 状态 的 不 同 ， 有 时 字 节 码 平均 每 个 指 
令 的 取 指令 成 本 会 很 高 。 

总 的 来 说 ， 字 节 码 的 指令 序列 相对 较 短 ， 在 内 存 使 用 量 上 有 优势 ， 但 从 取 指 令 的 次 数 和 所 需 时 
间 等 性 能 方面 来 看 ， 字 码 更 有 优势 。 































































































看 一 下 mruby 的 指令 
接 下 来 我 们 看 一 下 虚拟 机 指令 的 实际 例 A 
子 ， 比 如 图 1-15 中 的 mruby 指令 。 
mruby 的 指令 通过 未 尾 的 T 位 来 确定 指令 。” 
种 类 。 通 过 7 位 来 确定 指令 种 类 ， 这 就 意味 m 
着 最 多 可 以 实现 128 种 指令 。 实 际 上 ， 包 括 
预备 的 5 种 指令 在 内 ，mruby 共 准 备 了 81 种 。 美 型 4 
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01234567890123456789012345678901 
4— ———P- 44—— — —- «4—— —»- 44———» 








A B (c [9 
(98)  (o&) (7 位 ) (UR) 
AE: P! 
A Bx op 
(9 位 ) (16 位 ) fa) 
一 一 
Ax Op 
( 25r ) C7fr ) 
Ee MX bu 
A Bz CO 
(9 位 ) (14 位 ) (2 位 ) (7 位 ) 


指令 。 


指令 长 度 共 32 位 ， 其 中 7 位 用 于 确定 图 1-15 mruby 的 指令 结构 


指令 种 类 ， 这 就 表示 剩余 的 25 位 可 用 于 操作 
数 。mruby 的 指令 可 根据 操作 数 部 分 的 使 用 方法 〈 划 分 方法 ) 





类 型 1: 3 个 操作 数 





划分 为 4 种 类 型 。 





昌 令 类 型 1 包含 A、B、C 这 3 个 操作 数 。 A 是 9 位 ,B 也 是 9 位 ，C 是 7 位 。 也 就 是 说 ， 操 作 
数 A MI B 的 最 大 值 是 511， 操 作 数 C 的 最 大 值 是 127。 操 作 数 A 和 B 多 用 于 指定 寄存 器 。 例 如 ， 寄 





存 器 之 间 的 移动 指令 OP_MOVE 在 此 类 型 中 的 命令 为 


OP MOVE A B 








这 表示 把 操作 数 B 指定 的 寄存 器 的 内 容 复制 到 操作 数 A 指定 的 寄存 器 上 。OP_MOVE 指令 不 使 用 操 











作 数 Co 
使 用 操作 数 c 的 指令 ， 例 如 有 调用 方法 的 OP_SEND。 














OP SEND A B C 








这 表示 调用 操作 数 A 指定 的 寄存 器 OXEA ATEA A) 中 























保存 的 对 象 中 通过 操作 数 B 指定 的 符 


号 ”( 准确 来 说 是 符号 表 中 第 B 个 符号 ) 所 代表 的 方法 。 范 围 在 A + 1 到 A + 1 + C 的 寄存 器 的 值 











是 方法 的 参数 ,方法 调用 的 返回 值 保 存 到 寄存 融和 中。 


正如 刚才 介绍 的 OP_MOVE 指令 那样 ， 有 些 操作 数 在 类 型 1 的 几 个 指令 中 都 没有 用 到 。 虽 然 这 
部 分 空间 被 浪费 掉 了 ， 但 是 从 访问 的 便捷 性 和 效率 来 考虑 ， 这 种 情况 还 是 可 以 接受 的 。 





类 型 2: 2 个 操作 数 
指令 类 型 2 中 没有 操作 数 B 和 C， 取 而 代 之 的 是 一 个 大 





的 〈16 位 ) 操作 数 。 这 个 操作 数 分 为 








无 符号 数 (Bx ) 和 有 符号 数 ( sBx )， 根 据 指令 的 不 同 区 分 使 











jo fii Bx 的 有 OP_GETIV 等 指令 ， 














CD 符号 (symbol) 是 指 语言 处 理 器 在 内 部 识别 方法 名 时 使 用 的 值 ， 不 同 的 字符 串 会 被 分 配 不 同 的 值 。 
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如 下 所 示 。 


OP GETIV A Bx 


这 表示 将 符号 表 中 第 Bx 个 符号 指定 的 self SCBIAE EAE AIA A 中 。 
使 用 sBx 的 指令 有 跳 转 命令 ， 形 式 如 下 。 














OP JMP sBx 


这 个 指令 可 以 使 下 一 个 指令 的 地 址 由 现在 的 地 址 跳 转 到 偏 移 S Bx 个 位 置 的 地 方 。sBx 是 有 符 
号 数 ， 因 此 前 方 后 方 都 可 以 跳 转 。OP_JMP 指令 不 使 用 操作 数 A。 使 用 操作 数 A 的 有 条 件 跳 转 的 指 
令 例子 如 下 所 示 。 








OP JMPIF A SBx 


这 表示 在 寄存 器 A 为 真 的 情况 下 ， 跳 转 sBx 个 位 置 。 





类 型 3: 1 个 操作 数 
指令 类 型 3 把 操作 数 部 分 整合 为 1 个 25 位 的 操作 数 ( ax ) 进行 处 理 。 类 型 3 的 指令 只 有 OP. ENTER. 


OP ENTER Ax 


oP ENTER 根据 Ax 指定 的 位 模式 进 ” 表 1-3 OP ENTER 的 参数 指定 


RA 






























































中 的 23 位 分 割 为 5/5/1/5/5/111 来 解释 参 5 必需 参数 的 数量 
数 ， 每 位 的 含义 如 表 1-3 所 示 。 5 可 选 参数 的 数量 
1 是 否 有 rest 参数 ( * 参数 
类 型 4: 类 型 1 的 变形 5 未 尾 的 必需 参数 的 数量 
指令 类 型 4 把 B 和 c 操 作 数 的 部 分 区 dod du i srt 
(16 位 ) 分 割 为 14 位 的 Bz 操 作 数 和 2 位 C E 
1 是 否 有 块 ( block ) 参数 


的 cz 操作 数 。 指 令 类 型 4 的 指令 只 有 OP_ 
从 头 开始 分 割 25 位 的 Ax 操作 数 
LAMBDA。 
mruby 准备 了 从 指令 中 获取 操作 数 的 宏 ， 使 用 这 些 宏 就 可 以 从 指令 ( 的 字 ) 中 获取 操作 数 。 这 
些 宏 不 会 进行 指令 类 型 的 检查 ， 所 以 开发 者 要 注意 正确 使 用 宏 。 获 取 mruby 指令 的 操作 数 的 宏 如 
表 1-4 所 示 。 




















表 1-4 获取 mruby 指令 的 操作 数 的 宏 
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GET OPCODE (i) 


GETARG A( 


GETARG C( 


GETARG Bx(i) 
GETARG sBx(i) 
GETARG Ax(i) 





获取 指令 的 类 别 


1 A 操作 数 (9 位 ) 
GETARG B(i) B 操作 数 (9 位 ) 
i) C 操 作 数 (7 位 ) 


Bx 操作 数 ( 16 位 ) 
sBx 操作 数 ( 有 符号 型 16 位 ) 
Ax 操作 数 ( 25 位 ) 





GETARG b (i) Bz 操作 数 ( 14 位 ) 
GETARG c(i) Cz 操作 数 (2 位) 
解析 循环 
"n . ieypecderaumtso Moor 
如 果 可 以 使 用 这 样 的 结构 将 源 
代码 转换 为 虚拟 机 的 指令 序列 , 就 int 





可 以 轻松 实现 虚拟 机 的 基本 结构 。 


虚拟 机 


的 中 心 部 分 ， 也 就 是 解 


析 循 环 (interpreter loop )， 用 伪 代 


人 码 表示 时 如 
是 不 是 


ERIT, 


图 1-16 所 示 。 
简单 到 让 你 吃惊 ?即使 








ij HIE switch 语句 的 


case 增加 了 而 已 。 


不 过 ， 
实现 ， 要 实 
是 有 很 多 事 
没有 提 到 的 
何 构建 方法 
等 。 由 此 我 





就 算 基 本 结构 很 容易 
现 具 有 实用 性 的 语言 还 
情 需 要 考虑 ， 比 如 这 里 
怎样 实现 运行 时 栈 、 如 
调用 和 异常 处 理 的 机 制 
们 也 能 看 出 ， 理 论 和 实 

















践 之 间 还 隔 着 一 条 巨大 的 鸿沟 。 


直接 跳 转 


vm loop(code *pc) 


{ 


code i; 


tee (mg) d 
switch (GET OPCODE((i = *pc))) { 
case OP MOVE: 
stack [GETARG A(i)] = stack[GETARG B(i)l; 





break 
case OP SEND: 


break; 


图 1-16 虚拟 机 的 基本 结构 ( 使 用 switch 语句 ) 





在 很 多 情况 下 ， 实 用 的 虚拟 机 都 是 速度 优先 的 ， 因 此 我 们 也 想 提高 解析 循环 的 效率 。 提 高 虚 
拟 机 解析 循环 效率 的 技术 中 比较 有 名 的 是 直接 跳 转 (direct threading )， 其 中 使 用 了 GCC (GNU 


Compiler Collection ) 的 扩展 特性 。 




















GCC 中 可 以 获取 标签 (label) 的 地 址 并 跳 转 到 这 个 地 址 。 标 签 的 地 址 可 以 通过 “&& 标签 名 ” 
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获取 ， 跳 转 到 标签 的 方法 是 “goto * 标签 "。 使 用 此 项 功能 ， 我 们 就 可 以 使 用 跳 转 代替 switch 





语句 来 构建 虚拟 机 。 
使 用 直接 跳 转 实现 解析 循环 的 代码 如 图 1-17 所 示 。 


Beecereunme ee eode; 


Hdefine NEXT i=*++pc; goto *optable[GET OPCODE(i)] 
Hdefine JUMP i-*pc; goto *optable[GET OPCODE(i)] 





Ine 
vm loop(code *pc) 


{ 
code i; 
/* 按 指令 编号 顺序 排列 的 标签 地 址 */ 
static void *optable[] = { 
&&L OP MOVE, &&L OP SEND, 


m 








JUMP; 


L OP MOVE: 

tack[GETARG A(i)] - stack[GETARG B(i)l; 
EXT; 

P SEND: 





© = o 











图 1-17 使 用 直接 跳 转 的 情况 




















实际 上 包括 mruby 在 内 ， 使 用 直接 跳 转 的 虚拟 机 的 实现 中 基本 上 都 提供 了 编译 选项 ， 供 用 户 选 















































保证 一 直 可 用 。 使 用 切换 宏 实 现 循 环 的 代码 如 图 1-18 所 示 。 


typedef uint32 t code; 








/* 只 支持 带 GCC 扩 展 功能 的 编译 器 */ 
Sif defined __GNUC _ || defined _ clang . || defined __INTEL COMPILER 
ddefine DIRECT THREADED 








择 是 使 用 switch 语句 还 是 使 用 直接 跳 转 。 这 是 因为 标签 地 址 的 获取 只 是 GCC 的 扩展 特性 ， 不 能 
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#endif 


#ifdef DIRECT_THREADED 





#define INIT DISPATCH JUMP; 

#define CASE(op) L ## op: 

#define NEXT i=*++pc; goto *optable[GET OPCODE(i)] 
4define JUMP i-*pc; goto *optable[GET OPCODE(i)] 
#define END DISPATCH 

















#else 


Sdefine INIT DISPATCH for (;;) ( i - *pc; switch (GET OPCODE(i)) ( 
#define CASE (op) case op: 

#define NEXT pc++; break 

#define JUMP break 

#define END_DISPATCH }} 








#endif 


E 

vm loop (code *pc) 

{ 
code i; 

#ifdef DIRECT_THREADED 
static void *optable[] = { 

&&L OP MOVE, &&L OP SEND, 

UE, 


#endif 














INIT_DISPATCH { 
CASE (OP_MOVE) { 
Stack[GETARG A(i)] = stack[GETARG B(i)l; 











} 


NEXT; 
CASE(OP SEND) ( 
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END DISPATCH; 


MEM M M M352—LL2 IO 1 £ L1 QTY 


图 1-18 ”使 用 切换 宏 的 情况 
使 用 这 项 技术 ， 即 使 在 没有 GCC 扩展 特性 的 编译 器 上 ， 也 可 以 用 switch 语句 得 到 相应 的 速 
度 。 而 在 有 GCC 扩展 特性 的 编译 器 上 ， 则 可 以 使 用 直接 跳 转 技术 实现 速度 更 快 的 虚拟 机 。 



































小 结 




















本 节 讲 解 了 运行 时 的 核心 部 分 一 一 虚拟 机 的 实现 ， 至 此 语言 处 理 器 的 基础 部 分 就 粗略 地 讲解 完 


了 。 下 个 月 ”开始 我 会 把 讲解 的 重心 放 在 语言 设计 上 。 
时 光 机 专栏 









































本 节 是 2014 年 6 月 刊 中 刊登 的 内 容 。 接 着 上 一 节 对 yacc 的 介绍 ， 这 里 讲解 了 虚拟 机 的 实 
现 。 讲 解 时 使 用 了 mruby 作为 示例 ， 是 因为 过 于 简单 的 例子 不 容易 让 大 家 把 握 虚 拟 机 实现 的 整 
体 情况 。 最 重要 的 原因 是 ， 我 打算 在 mruby 的 虚拟 机 的 基础 上 实现 其 他 语言 ( 今后 要 去 实现 的 
语言 ) 的 虚拟 机 。 

实际 上 Streem 的 实现 采用 了 直接 遍历 语法 树 这 种 简单 的 解释 器 ， 所 以 本 节 讲解 的 内 容 对 
于 Streem 来 说 不 会 起 到 任何 作用 ， 但 对 于 虚拟 机 的 实现 还 是 有 价值 的 ， 因 此 本 书 选择 保留 这 
部 分 内 容 。 虽 然 我 也 打算 把 Streem 的 简单 的 解释 器 替换 为 本 节 介绍 的 虚拟 机 ， 但 却 苦于 没 
时 间 。 时 间 管理 成 为 我 最 大 的 障碍 ， 这 种 情况 已 经 不 是 一 次 两 次 了 …… 


















































































































































































































































(D ”本 书 是 由 杂志 连载 内 容 整 理 而 来 的 ， 因 此 有 “下 个 月 ”之 说 。 一 一 译 者 注 





























编程 语言 设计 入 门 (CBS ) 


关于 语言 的 实现 我 们 已 经 有 了 大 致 的 了 解 ， 接 下 来 就 来 思考 一 下 语言 的 设计 吧 。 作 为 











案例 ， 本 节 我 们 将 回顾 一 下 Ruby 早 期 的 设计 。Ruby 是 作为 一 门 支 持 脚 本 编程 的 面向 
对 象 语言 开发 的 。 











假设 你 想 创造 一 门 新 的 编程 语言 ， 并 且 不 是 玩 玩 看 的 心态 ， 而 是 希望 它 有 朝 一 日 能 成 为 在 全 世 
界 广泛 使 用 的 “人 气 语言 "。 那 么 ， 你 该 如 何 做 呢 ? 








创造 人 气 语言 的 方法 





比 起 性 能 和 功能 ， 语 言 规范 更 能 决定 一 门 新 的 编程 语言 的 人 气 。 然 而 ， 基 本 上 没有 哪 本 书 或 哪 
个 网 页 会 告诉 你 如 何 设计 一 门 语言 。 

不 过 仔细 想 想 ， 也 几乎 没有 什么 人 设计 过 正经 的 语言 。 市 面 上 虽然 有 自制 编程 语言 相关 的 教 
材 ， 但 是 这 些 教材 介绍 的 都 是 编程 语言 的 实现 方法 ， 里 面 介绍 的 语言 也 不 过 是 一 些 例子 而 已 ， 大 多 
是 现 有 语言 或 现 有 语言 的 子 集 。 语 言 的 设计 则 在 这 些 教材 的 考虑 范围 之 外 ， 可 能 连 编写 这 些 教材 的 
人 也 没有 设计 人 气 语言 的 经 验 。 

的 确 如 此 。 没 有 多 少 编程 语言 能 达到 在 世界 上 被 广泛 使 用 的 程度 。 即 使 把 历史 上 所 有 的 人 气 语 
言 全 算 上 ， 疏 怕 也 不 到 几 百 种 。 当 然 ， 这 也 要 看 怎么 定义 “人 气 ” 这 个 词 了 。 也 就 是 说 ， 这 些 语 言 
的 设计 者 在 全 世界 也 不 过 几 百 人 人， 而且 其 中 一 些 人 已 经 不 在 了 。 

作为 为 数 不 多 的 语言 设计 者 的 一 员 ， 我 觉得 我 有 使 命 向 大 家 介绍 语言 设计 的 秘诀 。 本 书 真 正 的 
目的 也 在 于 此 。 






























































心里 的 疑问 


有 志 成 为 语言 设计 者 的 人 在 开始 设计 新 的 语言 时 ， 脑 海中 经 常会 掠 过 以 下 疑问 。 














e 真 的 需要 新 的 语言 吗 
e 这 门 语言 是 做 什么 的 
e 目标 用 户 是 谁 
e 采用 什么 样 的 功能 
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我 们 没有 必要 为 这 些 疑 问 而 烦恼 ， 因 为 即使 你 为 此 烦恼 ， 对 你 设计 一 门 好 的 语言 也 毫 无 益处 。 

不 过 ， 这 里 我 们 还 是 来 思考 一 下 这 些 问题 。 比 如 第 一 个 问题 ， 其 实 只 要 是 图 灵 完 全 的 语言 ， 就 
可 以 用 来 编写 所 有 算法 。 现 有 的 编程 语言 都 已 经 证 明 是 图 灵 完 全 的 ， 所 以 从 软件 开发 ( = 编写 算 
法 ) 的 角度 来 看 ， 完 全 不 需要 新 的 语言 。 

然而 ， 现 实 是 在 过 去 五 十 多 年 不 断 有 新 的 语言 被 创造 出 来 ， 这 并 不 是 因为 已 有 的 语言 不 能 编写 
某 个 算法 ， 而 是 因为 用 新 的 语言 编写 起 来 更 方便 或 者 写 起 来 更 严 。 而 你 之 所 以 会 产生 是 否 真 的 需要 
新 语言 的 疑问 ,恰恰 就 是 因为 你 的 心底 已 经 有 了 创造 一 门 语言 的 想法 。 既 然 有 了 这 样 的 想法 ， 就 无 
须 为 “是 否 有 必要 ”这 种 问题 而 烦恼 了 。 
























































自己 想 用 就 足够 了 








对 于 “这 门 语言 是 做 什么 的 ”和 “目标 用 户 是 谁 ”的 问题 ， 我 觉得 有 必要 做 一 下 补充 。 

作为 资深 的 编程 语言 迷 ， 我 学 习 了 很 多 编程 语言 。 在 Ruby 成 名 之 后 ， 我 与 很 多 语言 设计 者 也 
都 进行 过 交流 ， 比 如 C++ 的 设计 者 本 机 尼 … 斯 特 劳 斯 特 卢 普 ( Bjarne Stroustrup )、Perl 的 设计 者 拉 
里 沃 尔 (Larry Wall )、Python 的 设计 者 吉 多 “' 范 罗 苏 姆 (Guido van Rossum ) 和 PHP 的 设计 者 拉 
斯 马 斯 . EAR (Rasmus Lerdorf) 等 。 从 和 他 们 的 交流 中 我 总 结 出 一 点 ， 那 就 是 除了 设计 者 本 
人 以 自用 为 目的 设计 的 语言 以 外 ， 其 余 的 语言 大 多 没有 流行 起 来 。 

如 果 连 自己 都 不 打算 用 ， 在 设计 时 就 考虑 不 到 细节 ， 也 无 法 保持 激情 去 将 自己 设计 的 语言 培养 
成 人 气 语 言 。 不 少 语言 都 是 经 过 十 年 以 上 的 时 间 才 变 得 有 人 气 ， 因 此 ， 要 想 创造 一 门人 气 语 言 ， 考 
虑 细节 和 保持 激情 不 可 或 缺 。 也 就 是 说 ， 人 气 语言 的 目标 用 户 首先 是 设计 者 本 人 ， 然 后 才 是 拥有 相 
似 特质 的 用 户 。 而 “这 门 语言 是 做 什么 的 ” 则 取决 于 设计 者 本 人 想 做 什么 。 

决定 了 目标 用 户 和 语言 用 途 之 后 ， 就 没有 必要 为 最 后 一 个 问题 ， 也 就 是 “采用 什么 样 的 功能 ” 
而 烦恼 了 。 不 过 这 里 面 也 隐 含 着 一 些 诀窍 ， 之 后 我 们 再 进行 说 明 。 




















































































































m 开发 Ruby 的 契机 


漂亮 话说 再 多 也 没有 说 服 力 ， 这 里 我 们 来 看 一 下 Ruby 的 案例 。 我 与 Ruby 打交道 了 二 十 多 年 ， 
可 以 说 的 东西 有 很 多 。 这 里 我 们 重点 回顾 一 下 决定 语言 设计 方向 的 开发 初期 。 

先 从 Ruby 的 开发 背景 说 起 。 

Ruby 的 开发 始 于 1993 年 。 我 对 编程 语言 产生 兴趣 是 在 20 世纪 80 年 代 初 ， 当 时 我 还 在 鸟 取 县 
读 高 中 ， 从 那个 时 候 起 我 便 对 Pascal. Lisp 和 Smalltalk 等 编程 语言 产生 了 浓厚 的 兴趣 。 

那 时 我 没有 自己 的 计算 机 ， 还 不 能 自由 地 编写 程序 ， 但 不 知道 为 什么 就 对 编程 语言 产生 了 兴 
趣 ， 真 是 不 可 思议 。 比 起 写 什么 程序 ， 编 程 语言 这 一 编写 程序 的 手段 对 我 的 吸引 力 更 大 。 

但 是 ， 因 为 我 住 在 乡下 ， 找 不 到 什么 资料 或 者 文献 来 学 习 ， 所 以 吃 了 不 少 苗头。 那个 时 候 互 联 
网 还 没有 普及 ， 学 校 图 书馆 里 也 基本 没有 计算 机 相关 的 书 ， 这 让 我 头疼 不 已 。 
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为 了 绪 得 编程 语言 的 相关 信息 ， 我 只 好 在 计算 机 杂志 上 找 编程 语言 的 相关 内 容 ， 或 者 去 附近 
的 书店 看 一 些 类 似 于 大 学 教材 的 书 〈 书 很 贵 ， 当 时 买 不 起 )， 所 以 我 一 直 很 感激 当时 经 常 去 的 那 家 
书店 。 

后 来 我 上 了 大 学 ， 图 书馆 里 摆 满 了 各 种 图 书 、 杂 志和 论文 ， 非 常 齐全 ， 当 时 就 觉得 自己 生活 在 
了 天 堂 。 我 就 是 这 样 掌握 了 编程 语言 的 相关 知识 ， 这 些 知 识 在 我 后 来 的 语言 设计 中 也 起 到 了 非常 大 
的 作用 。 就 像 没 有 不 读书 的 作家 、 没 有 不 了 解 旧 棋谱 的 职业 棋 手 一 样 ， 在 设计 新 的 语言 时 ， 广 泛 了 
解 现 有 语言 的 相关 知识 是 很 重要 的 。 















































1993 年 有 很 多 空闲 时 间 


时 间 到 了 1993 年 。 那 时 我 已 经 大 学 毕业 ， 成 为 了 一 名 职业 程序 员 ， 工 作 就 是 根据 公司 的 业务 
要 求 开发 软件 。 在 那 之 前 我 开发 了 公司 使 用 的 内 部 系统 ， 还 在 UNIX 工作 站 上 开发 了 桌面 以 及 可 以 
添加 附件 的 邮件 系统 等 。 如 今 在 Windows 和 Mac 系统 上 这 没有 什么 稀奇 的 ， 但 在 当时 的 UNIX T. 
作 站 上 却 没 有 这 样 的 系统 。 即 使 有 类 似 的 也 基本 不 支持 日 语 ， 所 以 只 能 自己 开发 。 

但 是 在 泡沫 经 济 破灭 之 后 ， 公 司 整体 就 变 得 不 景气 了 ， 内 部 系统 又 不 能 带 来 经 济 效益 ， 于 是 公 
司 决 定 停 止 新 功能 开发 ， 继 续 使 用 已 经 开发 完成 的 功能 。 

开发 团队 被 解散 ， 只 有 少数 人 作为 维护 人 员 留 了 下 来 。 不 知 是 幸 还 是 不 幸 ， 我 也 是 这 些 少数 人 
之 一 。 但 是 因为 已 经 停止 了 开发 ， 所 以 我 也 没什么 事情 可 做 。 偶 尔 有 人 打 过 来 电话 说 计算 机 无 法 正 
常 运行 ,我 也 只 要 回复 “请 重启 一 下 ”就 行 。 那 段 日 子 就 是 这 么 过 来 的 ， 完 全 是 在 坐 冷 板 侨 。 















































图 书 的 策划 成 为 契机 


不 过 , 这 也 不 全 是 坏事 情 。 虽 然 公司 不 景气 ,我 不 用 怎么 加 班 “， 而 且 也 没有 了 奖金 , 与 泡沫 经 
济 时 期 相 比 收入 减少 了 很 多 〈 当时 刚 结婚 的 我 手头 比较 紧 )， 但 幸运 的 是 我 没有 被 开除 ， 所 以 也 不 
用 去 找 工 作 。 眼 前 有 计算 机 ， 事 情 少 而 且 不 重要 ， 所 以 也 没 人 管 。 时 间 和 精力 都 很 充沛 ， 就 开始 想 
去 做 点 什么 了 。 那 段 时 间 开 发 了 几 个 实用 的 小 程序 ， 后 来 因为 一 个 偶然 的 契机 ， 我 决定 去 实现 埋藏 
在 心中 多 年 的 一 个 梦想 一 一 创造 一 门 编程 语言 。 
这 个 “偶然 的 契机 ”是 这 样 的 。 当 时 和 我 同 部 门 的 一 位 前 辈 策 划 出 一 本 书 ， 在 开始 动笔 时 他 找 
我 商量 : “我 决定 写 一 本 通过 创建 编程 语言 来 学 习 面向 对 象 的 书 ， 你 可 以 帮 有 我 写 编程 语言 的 部 分 吗 ?” 

作为 编程 语言 迷 的 我 对 这 个 策划 内 容 非常 感 兴趣 ， 于 是 就 答应 了 。 但 这 个 策划 最 终 没 能 通过 
编辑 会 议 的 评审 ， 很 快 就 流产 了 。 创 造 一 门 编程 语言 是 我 多 年 来 的 一 个 梦想 ， 我 好 不 容易 鼓 起 了 干 
劲 ， 不 想 就 这 样 停止 。 以 前 只 是 徒 有 梦想 ， 想 象 不 出 语言 完成 时 是 什么 样子 ， 所 以 一 直 没 有 动力 去 
做 ， 现 在 好 不 容易 燃 起 了 激情 ， 就 此 停止 就 太 可 惜 了 。 






















































































中 ”通常 日 本 公司 都 会 有 加 班 费 。 一 一 译 者 注 























34 | 第 1 章 创造 一 门 什么 样 的 语言 





EERI “干劲 ”开启 了 Ruby 二 十 年 的 历史 。 当 时 ， 我 做 梦 都 没 想到 Ruby 能 成 长 为 一 个 被 
全 世界 广泛 使 用 的 语言 。 





m Ruby 早期 的 设计 


前 面 我 们 已 经 探讨 过 了 在 打算 创造 一 门 新 语言 时 脑海 中 会 涌现 的 疑问 ， 昌 然 在 二 十 年 后 的 今天 我 
可 以 明确 地 说 自己 已 经 对 这 些 问题 不 在 意 了 ,但 当时 的 我 很 年 轻 ， 还 是 稍微 犹 泡 了 一 下 。 在 经 过 短 
暂 的 思考 之 后 ， 我 决定 创造 属于 自己 的 语言 。 现 在 想 想 ， 就 是 当时 的 这 个 选择 决定 了 后 来 的 一 切 。 

那 时 我 是 C 程序 员 ， 多 使 用 C 和 shell 脚本 语言 。 工 作 中 中 等 规模 以 上 的 系统 用 C 来 开发 ， 而 日 常 
使 用 的 比较 小 规模 的 程序 则 用 shell 脚本 开发 。 当 时 ( 实际 上 现在 也 是 ) 我 既 没 有 对 C 感到 不 满意 ， 也 
没有 觉得 创造 一 门 给 C 增加 面向 对 象 功能 的 新 语言 有 什么 吸引 力 。 这 可 能 是 因为 当时 已 经 有 了 CH, 
还 有 我 在 大 学 毕业 设计 中 设计 过 一 门 以 C 为 基础 的 面向 对 象 语言 (虽然 没有 达到 令 自 己 满意 的 程度 )。 



























































对 shell 脚本 不 满意 














我 反而 对 shell 脚本 不 是 很 满意 。 当 时 我 使 用 的 是 bash， 如 果 仅 仅 是 排列 一 下 命令 行 ， 再 加 上 
一 些 简单 的 控制 结构 的 话 ， 那 么 用 这 种 简单 的 语言 也 就 足够 了 。 但 是 ， 随 着 程序 不 断 完善 而 逐渐 变 
得 复杂 ， 就 容易 出 现 连 自己 都 看 不 懂 的 情况 ， 这 让 我 觉得 不 太 满 意 。 男 外 ，shell 脚本 没有 正规 的 数 
据 结构 ， 这 一 点 也 让 我 感到 不 满 。 总 之 ，shell 脚本 只 是 加 了 些 人 逻辑 控制 的 命令 行 输入 ,说 到 底 也 不 
过 是 个 “简易 语言 "， 这 正 是 它 的 问题 所 在 。 

当时 在 与 shell 脚本 相近 的 领域 ( 脚本 语言 领域 ) 里 有 更 接近 普通 语言 的 Perl 语言 ,但 是 在 我 
AR, Per 语言 也 带 着 一 种 “简易 语言 ”的 感觉 。 对 于 Perl 只 有 标量 (字符 串 和 数值 )、 数 组 和 散 
列 这 几 种 数据 结构 ， 我 也 很 不 满 。 因 为 这 样 就 无 法 直接 表达 一 些 复杂 的 数据 结构 了 。 

当时 还 是 Perl 4 的 时 代 ，Perl 5 的 面向 对 象 功 能 只 不 过 是 坊间 传闻 ， 但 是 传闻 中 的 Perl 5 fim 
向 对 象 功能 听 上 去 也 不 是 很 让 人 满意 。 我 觉得 相 较 于 Perl， 拥 有 更 丰富 的 数据 结构 的 语言 会 更 好 。 
另外 ， 我 从 高 中 时 就 开始 痴迷 面向 对 象 编程 ， 所 以 我 希望 编程 语言 不 仅 能 够 处 理 结构 体 ， 还 能 够 真 
正 地 支持 面向 对 象 编程 。 
































































































































Python 过 于 普通 


另外 ， 还 有 一 门 叫 作 Python 的 语言 。 那 个 时 候 关 于 Python 的 信息 还 很 少 ， 我 下 了 很 多 功夫 去 
人 研究， 结果 发 现 面向 对 象 功能 是 后 来 加 上 去 的 ， 而 且 感 觉 这 门 语 言 过 于 普通 ， 所 以 我 不 太 喜 欢 。 我 
由 知道 自己 的 想法 是 多 么 地 自 大 ， 但 只 要 一 说 起 “理想 的 语言 ”这 个 话题 ， 我 这 个 编程 语言 迷 的 话 
匣子 就 关 不 上 了 。 

可 能 有 人 会 问 “ 过 于 普通 ”是 什么 意思 。 






























































是 说 Python 在 语言 层面 上 不 支持 正则 表达 式 ， 字 符 串 操 
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作 功 能 也 不 够 强大 ， 让 人 感觉 不 到 它 在 语言 层面 上 支持 脚本 开发 ( 这 里 指 的 是 20 年 前 的 Python )。 
通过 缩 进 来 表示 代码 块 是 Python 的 特征 之 一 ， 这 是 一 个 很 有 意思 的 尝试 , 但 同时 也 是 它 的 一 
个 缺点 。 比 如 ， 当 你 想 根据 模版 自动 生成 代码 时 ， 如 果 不 能 保持 正确 的 缩 进 ， 程 序 就 不 能 正常 工 
作 ; 由 于 代码 块 是 通过 缩 进来 表示 的 ， 所 以 在 语言 层面 上 需要 明确 区 分 表达 式 和 语句 ， 等 等 。 

这 样 说 来 ，Python 与 普通 的 Lisp 方言 相 比 ， 除 了 语法 更 容易 理解 一 些 之 外 ， 似 乎 也 没有 什么 
区 别 。 现 在 想 想 ,我 完全 忽视 了 社区 和 类 库 的 存在 ,但 当时 我 还 没有 认识 到 它们 的 重要 性 。 
















































































让 脚本 语言 支持 面向 对 象 


不 过 ， 通 过 考察 其 他 语言 ， 我 清楚 自己 想 做 什么 样 的 语言 了 ， 那 就 是 一 个 类 似 于 shell 脚本 、 
比 Perl 更 加 接近 普通 语言 、 可 以 自己 定义 数据 结构 并 具有 面向 对 象 功能 的 语言 。 当 然 ， 这 门 语 言 要 
比 Python 更 能 无 缝 地 进行 面向 对 象 编程 ， 而 且 还 必须 支持 包括 字符 串 操 作 在 内 的 脚本 编程 所 需 的 
特色 功能 ， 以 及 有 具备 库 。 

近年 来 ， 脚 本 编程 变 得 越 来 越 重要 ，Perl 和 Python 的 出 现 频率 也 越 来 越 高 ， 然 而 同 在 脚本 编程 
领域 的 面向 对 象 编程 的 必要 性 却 没 有 得 到 足够 的 认识 。 

当时 人 们 一 般 认 为 面向 对 象 语言 是 仅 在 大 学 研究 或 大 规模 的 复杂 系统 开发 中 使 用 的 技术 ， 而 不 
会 在 脚本 编程 这 种 小 规模 的 简单 编程 中 使 用 。 不 过 ， 这 种 情况 总 算 有 了 转变 的 苗头 。 

Perl 终于 计划 在 今后 支持 面向 对 象 功能 。Python 虽然 已 经 是 面向 对 象 语言 ， 但 是 这 个 功能 是 
后 来 增加 的 ， 所 以 ( 当时 ) 并 非 所 有 的 数据 都 是 对 象 。 当 我 想 去 编写 一 门面 向 对 象 语 言 的 时 候 ， 
Python 已 经 成 了 支持 面向 对 象 编程 的 过 程式 编程 语言 。 如 果 这 时 出 现 一 门 以 脚本 编程 为 主 、 支 持 过 
程式 编程 的 面向 对 象 语言 ， 那 么 它 一 定 非常 好 用 ， 至 少 我 自己 很 乐意 去 使 用 。 

说 着 说 着 干劲 就 来 了 。 程 序 员 三 大 美德 ”之 一 的 傲慢 在 我 身上 体现 得 淋漓尽致 ， 我 决定 ， 既 然 
要 做 ,就 要 做 出 不 输 给 Perl 和 了 Python 的 东西 来 。 盲 目 自 信和 是 可 怕 的 ,但 往往 这 样 的 自信 会 成 为 动 
力 的 源泉 。 

















































































































m 开始 开发 Ruby 


于 是 我 开始 了 Ruby 的 开发 。 最 开始 决定 的 是 名 字 ， 名 字 很 重要 。Perl 的 名 字源 于 “珍珠 ” 
(pearl) 这 个 单词 ， 于 是 我 决定 仿效 Perl， 为 这 门 语言 选 一 个 宝石 的 名 字 。 宝 石 的 名 字 大 多 比较 长 ， 
比如 Diamond 和 Emerald， 我 一 直 找 不 到 合适 的 ， 挑 来 挑 去 最 后 只 剩 下 了 Coral (W) 和 Ruby 
( 红宝石 )。Ruby 这 个 名 字 既 短 又 美 ， 于 是 我 最 终 选 择 了 它 。 那 个 时 候 没 怎么 细 想 ， 不 过 因为 编程 
语言 的 名 字 经 常 被 人 叫 起 ， 所 以 最 好 既 好 读 又 让 人 印象 深刻 。 

如 果 大 家 决定 开发 自己 的 语言 ， 就 一 定 要 多 花 精力 想 一 个 好 名 字 。 能 够 清晰 地 表达 出 语言 特 
(D Per 的 设计 者 拉 里 : 沃 尔 说 程序 员 有 三 大 美德 ， 分 别 是 懒惰 、 急 躁 和 做 慢 。 当 然 ， 普 通 情况 下 不 会 称 这 些 特质 为 

美德 。 
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征 的 名 字 是 最 好 的 ， 不 过 像 Ruby 这 种 与 语 


对 代码 块 结构 的 表现 方式 的 思索 


接着 决定 的 是 使 用 ena 关键 字 表 示人 代码 块 。C 、C++ 和 Java 在 代码 块 里 都 使 
会 出 现 一 个 问题 ， 


来 括 住 多 条 语句 ， 这 人 么 











(图 1-19 )。 尽 管 Pascal 
所 以 也 存在 同样 的 问题 。 











E 


目标 的 方法 有 三 种 。 


这 








(1) 单条 语句 中 不 允许 省 略 大 括号 的 Perl 方式 





























(2) 用 缩 进 表示 代码 块 的 Python 方式 



































我 不 喜欢 这 种 单条 语句 和 多 条 语句 的 问题 ， 所 以 想 在 自己 的 语言 中 杜绝 这 种 问题 的 发 生 ， 








(3) 不 区 分 单条 语句 和 多 条 语句 ， 用 end 结束 代码 块 的 Eiffel 方式 ( 图 1-20 ) 



































// 多 条 语句 时 用 大 括号 括 起 来 


if (cond) [ 
statementi 





statement2 


) 














// 单条 语句 时 也 可 以 不 使 用 大 括号 





if (cond) 
statement1(); 











// 把 单条 语句 变 为 多 条 语句 时 忘记 加 大 括号 
if (cond) 

statement1(); 

statement2();  // 不 出 现 语法 错误 





图 1-19 单条 语句 和 多 条 语句 的 问题 











B 单条 语句 的 情况 


EIE COT 





statemenl(); 
end 





B 多 条 语句 的 情况 ( 与 单条 语句 无 区 别 ) 
A cond 








statemenl(); 
statemen2(); 
end 


E 有 多 个 代码 块 时 像 梳子 一 样 


if cond 














statemenl(); 
elsif cond2 

statemen2() 
else 

Statemen3() 


end 


图 1-20 Eiffel 方式 ( 梳子 型 代码 块 结构 ) 


特征 完全 无 关 的 名 字 也 可 以 。 最 近 出 现 了 常用 名 字 的 
“googleability”( 可 搜索 性 ) 很 低 的 问题 。 这 个 问题 在 1993 年 Ruby 开始 开发 的 时 候 还 不 存在 。 


] 大 括号 ({}) 
那 就 是 把 单条 语句 变 为 多 条 语句 时 容易 忘记 加 大 括号 
] begin 和 enada 代 替 了 大 括号 ， 但 因为 也 有 单条 语句 和 多 条 语句 的 区 别 ， 


实现 
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自动 缩 进 的 课题 


多 年 来 我 一 直 使 用 Emacs 文本 编辑 器 ， 非 常熟 悉 它 的 语言 模式 ， 而 且 最 喜欢 这 个 语言 模式 提供 的 自 
动 缩 进 功能 。 输 入 一 些 代码 后 ， 编 辑 顺 就 会 自动 帮 你 缩 进 ， 这 种 感觉 就 像 是 和 编辑 器 合力 编写 代码 一 样 。 

在 (2) 的 Python 方式 中 ， 缩 进 本 身 是 用 来 表示 代码 块 结构 的 ， 因 此 没有 自动 缩 进 的 余地 《不 
过 ,在 行 的 末尾 输入 冒号 ， 缩 进 会 更 加 深入 )。 另 外 ， 使 用 缩 进 表示 代码 块 的 Python 中 明确 区 分 了 
语句 和 表达 式 ， 由 于 我 受 不 区 分 语句 和 表达 式 的 Lisp 的 影响 较 大 ， 所 以 对 这 一 点 不 是 很 喜欢 。 因 
此 ， 我 最 终 没 有 采用 这 种 用 缩 进 表 示 代 码 块 的 Python 方式 。 

上 学 时 Eiffel 给 了 我 很 大 影响 ， 那 时 我 读 了 一 本 名 为 《面向 对 象 软件 构造 》 的 书 ， 受 其 影响 ， 
我 设计 了 一 门 语义 上 类 似 于 Eiffel (但 是 语法 类 似 于 C 语言 ) 的 语言 作为 毕业 设计 。 尽 管 不 能 说 这 
个 尝试 取得 了 成 功 ， 但 接 下 来 我 准备 在 语法 上 ( 而 非 语义 上 ) 借鉴 Eiffel， 看 看 效果 如 何 。 









































































































































自制 Emacs 的 语言 模式 


这 里 让 我 担心 的 依旧 是 自动 缩 进 功能 。 在 当时 的 Emacs 语言 模式 中 ， 主 流 做 法 是 像 C 那样 用 
符号 标记 代码 块 ， 以 此 进行 自动 缩 进 ， 而 Pascal 等 使 用 关键 字 表 示 代 码 块 的 语言 的 模式 则 是 用 快捷 
键 来 增加 或 减少 缩 进 ， 这 样 就 没有 了 自动 缩 进 的 畅快 感 。 

于 是 我 花 了 几 天 时 间 与 Emacs Lisp 展开 搏斗 ， 使 用 正则 表达 式 对 Ruby 语法 进行 了 简单 的 分 
析 ， 创 建 了 在 使 用 ena 的 语法 中 也 可 以 自动 缩 进 的 Ruby 语言 模式 的 模型 ， 由 此 也 证 明 在 使 用 end 
的 、 语 法 类 似 于 Eiffel 的 语言 中 也 可 以 实现 自动 缩 进 功能 。 这 样 一 来 ， 我 就 可 以 放心 地 在 Ruby 的 
语法 中 使 用 end 了 。 反 过 来 说 ， 如 果 当 时 没有 成 功 开发 出 可 以 自动 缩 进 的 Ruby 语言 模式 ， 那 么 
Ruby 语法 也 就 不 是 现在 的 样子 了 。 

在 设计 上 选择 使 用 ena 的 代码 块 结构 还 有 一 个 预料 之 外 的 好 处 。 因 为 Ruby 的 很 大 一 部 分 是 使 
用 c 实现 的 ， 所 以 就 必然 需要 区 别 使 用 C 和 Ruby。 不 过 C 和 Ruby 的 代码 风格 完全 不 同 ， 所 以 可 
以 一 眼看 出 当前 是 在 用 哪 种 语言 工作 ， 这 就 降低 了 大 脑 的 模式 切换 成 本 。 昌 然 这 个 成 本 微不足道 ， 
但 是 它 对 保持 良好 的 编程 劲头 还 是 非常 有 好 处 的 。 另 外 , 今后 当 Perl、Python 和 Ruby 被 当成 脚本 
语言 的 竞争 对 手 时 ， 我 想 每 种 语言 都 拥有 不 同 的 代 但 块 构造 (Perl 是 大 括号 ，Python 是 缩 进 ，Ruby 
是 end ) 或 许 能 帮助 它们 继续 生存 下 去 。 
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Æ else if 还 是 elsif 还 是 elif 




















说 点 题 外 话 ， 如 果 使 用 了 上 述 解决 多 条 语句 问题 的 方法 ， 就 不 能 像 C 那样 编写 else if 语句 
了 。 因 为 C 的 else if 会 被 解释 为 在 else 后 面 紧 跟 着 一 个 无 大 括号 的 单条 if 语句 (图 1-21). 
用 Ruby 的 语法 编写 else if 语句 ， 代 码 如 图 1-22 所 示 。 
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// (a) 使 用 了 else af 的 以 下 语句 # 总 之 ， 如 果 Ruby 没 有 用 elsif 
if (cond) ( # 就 需要 写成 下 面 这 样 
了 SEE OT GI 
J 
else if (cond2) ( EIS 
j agde 1 ecm 
// 如 果 不 省 略 大 括号 ， 就 会 变 成 这 样 
Eona 4 2g 
j es # 还 是 用 elsif 更 好 
else { siia erore] 


if (cond2) ( 
elsif cond2 


} 


} end 


E] 1-21 C} else if 1-22 Ruby 的 else if 


从 图 1-22 的 代码 来 看 ， 还 是 用 elsif 比较 好 。 顺 便 说 一 句 ，Perl M Ruby 用 的 是 elsif， 而 
shell 脚本 和 Python (还 有 C 预 处 理 器 ) 用 的 是 elif。 这 个 差别 真是 有 意思 。 

据说 Python 是 从 shell 脚本 和 C 预 处 理 器 那里 继承 的 elif 这 一 写法 ， 而 shell 脚本 等 又 是 从 古 
老 的 Algol 系列 继承 而 来 的 。 此 外 ， 像 shell 脚本 的 fi M esac 那样 将 表示 开始 的 关键 字 倒 着 拼写 
来 表示 结束 ， 据 说 也 是 起 源 于 此 。 

很 遗憾 我 不 知道 Perl 为 什么 用 了 elsif, fH Ruby 是 因为 以 下 两 点 。 


























€ elsif 与 else if 发音 相 同 而 且 长 度 较 短 (elseif 长 一 些 ， 而 elif 的 发 音 发 生 了 改变 ) 
e Ruby 在 基本 语法 上 借鉴 最 多 的 语言 Eiffel 用 的 也 是 elsif 
































一 个 关键 字 也 是 有 历史 原因 的 。 

再 扯 得 远 一 些 ，Perl 的 语法 虽然 跟 C 基本 相同 ， 但 因为 不 能 省 略 大 括 导 ， 所 以 基于 图 1-21 的 原因 
不 支持 else if。 不 过 ， 如 果 在 语法 上 明确 加 入 else 和 if 的 组 合 ， 兴 许 也 能 支持 else if. 在 很 
久之 前 ， 有 一 天 我 一 时 兴起 改 了 一 下 Perl 的 源 代 码 ， 没 想到 只 花 几 分 钟 稍微 修改 了 一 下 yace 描述 ， 就 
做 出 了 支持 else if 的 Perl。 不 知道 Perl 社区 的 人 为 什么 至 今 还 没有 动手 去 做 ， 真是 让 人 费解 。 

















开始 实现 


确定 了 基本 方针 和 语法 的 方向 之 后 ， 接 下 来 就 到 了 实现 环节 。 季 好 我 手 上 还 有 以 前 随便 做 的 
“小 儿科 ”语言 的 源 代 码 ， 所 以 就 决定 以 这 个 为 基础 进行 开发 。 
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Ruby 的 开发 始 于 1993 年 2 月 ， 之 后 大 致 完成 了 语法 分 析 融 和 运行 时 的 基础 部 分 ， 并 在 半年 后 


的 8 月 份 开 始 运行 了 最 早 的 Ruby 程序 (一 个 Hell 





o World 程序 )。 





老实 说 ， 那 段 时 期 是 整个 Ruby 开发 过 程 中 
正常 运行 起 来 才能 感受 到 编程 的 喜悦 ， 而 那个 时 期 
不 到 可 运行 的 状态 ， 以 至 于 我 几乎 没有 了 文 撑 下 去 
说 写 了 语法 分 析 器 ,但 它 能 











FI 
里 





E BE 


P 最 艰难 








的 一 段 时 间 。 程 序 员 只 有 看 到 自己 写 的 代码 
Ruby 没有 任何 可 以 运行 的 东西 ， 写 来 写 去 也 达 








的 动力 。 
做 的 也 只 是 语法 检查 。 要 想 运 行程 序 ， 还 需要 字符 








P, HX 








"Hello World" 是 字符 串 对 象 。 要 编写 字符 串 类 


， 就 需要 有 以 Object 为 顶点 的 面向 对 象 系统 ， 而 








输出 字符 





S6 JJ 


又 需要 管理 IO 的 对 象 ， 像 这 样 ， 需 要 的 东西 一 个 接 一 个 地 增加 。 充 分 具备 程序 员 三 





美德 之 一 的 “急躁 ”的 我 居然 


耐 那 半年 ， 简 直 是 


个 奇迹 。 














月 ET 








人 气 在 于 细节 


一 | 
HH 


5 
FH 


此 所 实现 的 内 容 也 只 是 停 
如 何 给 语言 加 上 自己 的 特 


还 有 很 多 很 多 。 














E? 如 何 招揽 人 气 ? 


不 过 ,“ 和 叙旧 ”和 氢 得 有 点 久 ， 这 次 的 篇 幅 已 经 用 完了 。1-5 节 将 会 继续 本 市 的 内 








Ruby 设计 的 案例 学 习 的 后 半 部 分 ， 敬 请 期 待 。 


了 解 一 下 常见 语言 的 历史 吧 





说 实现 了 Hello World 的 输出 程序 ， 但 光 赁 这 一 点 Ruby 还 不 能 算得 上 一 个 可 
在 教科 书 的 示例 程度 。 要 1 




















] 之 物 , 至 
达到 人 气 语 言 这 一 目标 ， 接 下 来 才 是 重点 。 
Ruby 早期 的 设计 是 如 何 考虑 的 ?我 要 讲 的 东西 


相 


US 

















ZA 


为 大 家 介绍 


时 光 机 专栏 



































本 节 是 2014 年 7 月 刊 中 刊登 的 内 容 。 这 
RT Ruby 语言 的 开发 背景 以 及 历史 经 过 ， 回 答 

















dr" “为 什么 采用 这 样 的 语法 ”等 问题 。 





























里 终于 开始 了 对 语言 设计 相关 内 容 的 介 


Zn 


- s 


yt 
了 “为 什么 想 要 去 做 “在 哪些 地 方 遭 遇 了 氛 







































































































































































虽然 都 是 很 久 以 前 的 事情 ， 但 实际 上 很 少 有 人 能 讲 出 常见 语言 的 背景 以 及 隐藏 在 各 种 设计 
背后 的 理由 ， 所 以 我 认为 这 一 节 和 下 一 节 是 本 书 的 一 大 亮点 。 

但 话说 回来 ， 这 些 内 容 本 身 不 过 是 一 些 没 有 用 处 的 知识 而 已 。 为 了 后 来 人 ， 我 真心 希望 大 
家 能 从 这 些 过 去 的 事情 中 吸取 一 些 教训 ， 比 如 : 

e 设计 即 决定 

e 即使 是 像 语 法 这 样 基本 的 东西 ， 也 有 各 种 需要 考虑 的 地 方 

e 不 仔细 考虑 的 话 设计 就 会 出 错 

e 即使 仔细 考虑 也 有 可 能 犯错 
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1-4 节 讲述 了 Ruby 的 诞生 ， 本 节 将 接着 上 一 节 的 内 容 ， 继 续 讲述 Ruby 语 言 设 计 的 相关 
内 容 ， 介 绍 变量 名 的 命名 方法 、 继 承 的 思考 方式 、 错 误 处 理 以 及 迭代 器 等 是 如 何 确定 
的 ， 并 从 中 总 结语 言 设计 的 窍门 。 















































在 前 面 的 内 容 中 ，Ruby 确定 了 基本 的 语法 结构 ， 作 为 编程 语言 迈 出 了 第 一 步 ， 但 如 果 只 是 这 


























样 ， 它 也 不 过 是 一 个 随处 可 见 的 平庸 的 语言 。 现 在 Ruby 在 语法 上 只 确定 了 代码 块 用 “do~end” 括 
起 来 、 用 elsif 实现 else if 这 几 点 ， 接 下 来 还 需要 在 细节 上 加 以 完善 。 





设计 原则 








在 这 个 阶段 ， 我 心目 中 的 Ruby 除了 要 满足 “成 为 面向 对 象 语言 ”这 个 功能 方面 的 要 求 以 外 ， 
还 要 实现 以 下 几 个 目标 。 














e 脱离 简易 语言 的 范畴 
e 易 写 易 读 


IN 
e 简洁 





“脱离 简易 语言 的 范畴 ”是 指 在 语言 规范 上 不 草率 了 事 。 当 时 ， 特 别 是 在 脚本 语言 领域 ， 很 多 
语言 都 把 完成 工作 放 在 第 一 位 ， 而 ( 貌似 ) 在 语言 规范 上 草率 了 事 。 比 如 ， 明 明 没 什么 必要 ， 却 以 
容易 实现 为 由 给 变量 名 加 上 符号 ,或 者 用 户 自 定义 函数 与 内 置 函 数 的 调用 方法 不 同等 。 

“ 易 写 易 读 ”这 一 点 比较 抽象 。 程 序 不 是 写 一 次 就 结束 的 ， 而 是 要 在 调试 等 的 过 程 中 反复 琢磨 ， 
反复 修改 。 对 于 相同 的 操作 ， 代 码 的 规模 越 小 越 容易 理解 ， 所 以 简洁 的 代码 是 最 为 理想 的 ， 不 过 也 
不 能 过 于 简洁 。 

世界 上 也 有 一 些 异 常 简洁 的 语言 ， 但 在 事后 回 过 头 来 看 用 这 些 语言 写 的 代码 时 ， 则 往往 无 法 理 
解 代码 的 意思 ， 这 样 的 语言 通常 称 为 “Write Once Language”， 意 思 是 写 好 之 后 就 不 管 了 。 在 使 用 
这 种 语言 的 情况 下 ， 重 新 解读 代码 往往 要 比 从 头 再 写 一 遍 更 费 工 夫 。 只 有 通过 平衡 取舍 ， 才 能 达到 
易 写 易 读 的 效果 ， 语 言 的 设计 一 直 都 是 如 此 。 

另外 ,在 写 代 码 时 ， 如 果 被 迫 编写 一 些 在 本 质 上 与 想 做 的 事情 无 关 的 东西 ， 哪 怕 只 是 一 点 点 ， 

会 让 人 感到 不 快 ， 相 信 大 家 都 会 有 这 样 的 想法 。 这 是 因为 开发 时 自己 只 想 把 精力 集中 在 软件 应 该 
用 在 什么 地 方 这 种 本 质问 题 上 。 在 不 影响 理解 的 前 提 下 ， 尽 量 砍 掉 与 本 质 无 关 的 东西 ， 使 实现 变 简 
洁 ， 这 才 是 我 们 希望 看 到 的 。 
















































































变量 名 


Per 





1-5 ”编程 语言 设计 入 门 (后 篇 ) | 4l 


1 是 Ruby 开发 初期 参考 的 语言 之 一 。Perl 31-5 Per 的 变量 名 规则 





的 变量 名 开头 带 有 符号 ， 
其 中 比较 有 趣 的 是 访问 数组 的 方式 。 虽 然 取 $foo 标量 ( 字符 串 或 数值 ) 














QUE M OR 




















数组 (e£oo) 的 第 0 个 元 素 , 但 符号 用 的 却 是 $， ^ efoo 数组 ( 标量 数组 ) 
是 如 此 。 也 就 是 说 ， 开 头 的 符号 代表 了 这 个 变量 feo 散 列 ( 关联 数组 ) 





表达 式 ) 的 类 型 。 这 是 


明示 数据 类 型 的 前 





因为 Perl 曾 是 一 种 通过 恋 $foo[0] 访问 数组 元 素 
$foo{n} 访问 散 列 元 素 

















态 类 型 语言 (让 人 惊讶 )。 


JEX, Pel 引入 了 引用 的 概念 ， 这 使 得 包括 数组 ” 表 1-6 Ruby 的 变量 名 规则 


和 散 列 在 内 的 所 有 东西 都 可 以 作为 标量 来 表示 。 


















































此 ， 这 个 静态 类 型 的 原则 就 变 得 没有 那么 重要 了 。 从 局 变量 $ $foo 
但 是 在 看 到 变量 名 时 ， 我 们 最 想 知道 的 不 是 这 实例 变量 @ Gfoo 
个 变量 的 类 型 而 是 作用 域 。 有 些 语言 ( 比如 C++ ) ”局 部 变量 小 写字 母 foo 
的 编码 规则 要 求全 局 变量 或 者 成 员 变量 前 面 要 有 特 E ien Foe 
定 的 前 级 。 而 在 变量 名 中 加 入 类 型 信息 的 编码 规则 ， 比 如 以 前 美国 微软 公司 经 党 使 用 的 匈牙利 命名 


法 ， 最 近 已 经 完全 看 不 到 了 。 这 就 说 明明 示 类 型 信息 已 经 没有 必要 了 。 
于 是 Ruby 在 变量 名 中 增加 了 表示 作用 域 的 符号 ( 表 1-6 )， 比 如 $ 是 全 局 变量 ，@ 是 实例 变量 。 



































然而 ， 如 果 最 常用 的 局 部 变量 和 常量 ( 类 名 等 ) 也 加 上 符号 ， 就 会 重 蹈 Perl BUT 


让 局 部 变量 变 得 更 


经 过 








zet 
ENA 





























了 三 考虑 ， 我 决定 把 规则 定 为 局 部 变量 前 面 使 用 小 写字 母 ， 常 量 前 面 使 用 大 写字 母 ， 这 样 





就 不 会 有 那么 多 难看 的 符号 了 。 另 外 ， 如 果 大 量 使 用 全 局 变量 ， 就 会 使 整个 程序 中 到 处 都 是 难看 的 
$ 符号 ， 这 也 将 有 助 于 我 们 自然 地 去 推广 良好 的 编码 风格 。 


E 











变量 名 中 包含 作用 域 信 息 的 好 处 是 无 须 再 一 一 寻找 变量 声明 ， 因 为 有 关 变 量 作用 的 信息 会 以 


一 种 紧凑 的 形式 


























展现 在 你 的 面前 。 变 量 声明 用 于 向 编译 器 提供 变量 的 作用 域 和 类 型 等 信息 ， 与 本 质 

















的 处 理 没 有 关系 。 如 果 可 以 的 话 ， 我 是 不 想 写 这 种 东西 的 ， 更 不 想 为 了 读 懂 程 序 而 到 处 去 找 变量 声 











明 ， 所 以 才 确定 了 这 样 的 规则 ，Ruby 也 因此 没有 变量 声明 之 类 的 东西 。 变 量 在 最 开始 赋值 时 就 会 
被 生成 ， 而 不 再 进行 变量 声明 。 


HE 














EE 起见， 这 里 我 








了 补充 一 句 ， 我 并 没有 否定 声明 的 优点 ， 特 别 是 类 型 声明 的 优点 。 静 态 类 型 

















语言 即使 不 运行 也 能 在 编译 时 检查 出 类 型 不 匹配 的 错误 ， 这 让 我 觉得 很 了 不 起 。 只 是 我 想 把 精力 集 
中 在 本 质问 题 上 ， 而 且 也 不 想 写 类 型 声明 ， 所 以 目前 更 倾向 于 动态 类 型 。 
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给 脚本 语言 增加 面向 对 象 功能 


在 设计 Ruby 时 ， 还 有 一 个 从 一 开始 就 想 好 的 事情 ， 那 就 是 让 这 个 语言 成 为 真正 的 面向 对 象 




















语言 。 
当时 的 面向 对 象 语言 有 Smalltalk 和 C++， 大 学 研究 等 领域 也 在 使 用 Lisp 系 的 面向 对 象 语言 
(Flavors 语言 等 )。 据 说 还 有 一 门 叫 作 Eiffel 的 语言 ， 主 要 在 国外 的 金融 业 等 行业 中 使 用 ， 但 实际 的 
语言 处 理 器 只 有 商用 版 本 ， 而 且 在 日 本 很 难 获 取 。 

这 些 原 因 使 得 面向 对 象 编程 距离 我 们 很 遥远 ， 而 日 常 的 编程 ， 特 别 是 像 脚本 的 文字 处 理 那 种 规 
模 又 小 、 复 杂 程 度 又 不 高 的 编程 ， 一 般 被 认为 没有 必要 使 用 面向 对 象 编程 。 

所 以 当时 的 脚本 语言 没有 一 开始 就 具备 面向 对 象 功 能 的 。 即 使 有 支持 面向 对 象 编程 的 功能 ， 
是 后 来 添加 上 去 的 ， 因 此 大 多 缺乏 一 种 整体 感 。 

但 是 ， 高 中 时 读 过 的 那 一 点 关于 Smalltalk 的 资料 让 我 觉得 面向 对 象 编程 才 是 理想 的 编程 ， 我 
相信 在 脚本 编程 领域 面向 对 象 也 一 定 是 有 效 的 ， 因 此 在 设计 语言 时 ， 自 然 一 开始 就 想 朝 着 面向 对 象 
的 方向 去 设计 。 








































































































单一 继承 对 多 重 继承 


这 里 让 我 烦恼 的 是 继承 功能 的 设计 。 各 位 读者 可 能 知道 ， 在 支持 面向 对 象 编程 的 语言 功能 中 ， 
继承 分 为 单一 继承 ( 也 叫 单 重 继承 ) 和 多 重 继承 。 继 承 是 指 从 现 有 的 类 中 继承 功能 ， 并 附加 新 功能 
到 新 的 类 。 其 中 ， 作 为 基础 的 现 有 的 类 ( 称 为 父 类 ) 的 数量 只 有 一 个 的 情况 称 为 单一 继承 ， 有 多 个 
的 情况 称 为 多 重 继承 。 

单一 继承 是 多 重 继承 的 子 集 ， 只 要 有 多 重 继承 就 能 实现 单一 继承 。 多 重 继承 在 Lisp 系 的 面向 
对 象 语言 中 非常 发 达 ，C++ 后 来 也 引入 了 这 项 功能 ， 只 是 不 知道 在 1993 年 的 时 候 这 项 功能 的 使 用 
情况 如 何 “。 

不 过 ， 多 重 继承 有 单一 继承 没有 的 问题 。 在 
单一 继承 的 情况 下 ， 类 之 间 的 继承 关系 只 是 单纯 
的 一 列 ， 类 阶层 整体 是 树 结构 ( 图 1-23 )。 而 多 
重 继承 允许 多 个 父 类 存在 ， 因 此 类 之 间 的 关系 呈 
网 状 ， 形 成 DAG (Directed Acyclic Graph， 有 向 S3 SA 
无 环 图 ) 结构 。 在 多 重 继承 中 ， 继 承 的 父 类 也 可 EX Em 
能 同样 有 多 个 父 类 。 如 果 不 加 注意 ， 类 之 间 的 关 
系 马上 就 会 变 得 复杂 。 















































图 1-23 单一 继承 ( 左 ) 与 多 重 继承 UR) 





(D 根据 《C++ 语言 的 设计 与 演化 》 中 所 说 ，C++ 是 在 1989 年 的 2.0 版 本 中 引入 多 重 继承 的 。1993 年 的 时 候 这 个 功 
能 刚 出 现 不 久 ， 可 能 还 没什么 人 用 。 
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单一 继承 中 ， 类 之 间 的 关系 只 是 单纯 的 一 列 ， 不 需要 担心 继承 的 优先 顺序 ， 搜 索 方法 时 也 只 需 


按照 从 下 ( 子 类 ) 到 上 ( 父 类 ) 的 顺序 查找 即 可 。 

但 在 类 关系 是 DAG 结构 的 多 重 继承 的 情况 下 ， 搜 索 
顺序 就 不 一 定 是 唯一 的 了 (图 1-24 )。 既 有 深度 优先 搜索 ， 
也 有 广度 优先 搜索 ， 很 多 支持 多 重 继承 的 语言 (CLOS, 
Python 等 ) 还 采用 了 这 两 种 方法 之 外 的 C3 搜索 方法 。 

但 是 ， 无 论 选择 了 哪 种 方法 ， 都 有 很 难 直观 地 说 清楚 的 
情况 。 这 么 复杂 的 继承 关系 本 来 就 让 人 难以 理解 。 

那么 把 多 重 继承 变 为 简单 的 单一 继承 就 没有 问题 了 吗 ? 
虽然 前 面 说 过 单一 继承 的 类 关系 简单 ， 非 常 容 易 理 解 ， 但 这 
并 不 代表 单一 继承 就 没有 问题 。 



































单一 继承 的 问题 





单一 继承 的 问题 是 无 法 跨越 继承 范围 来 共享 方法 等 的 
类 属性 。 在 没有 共同 的 父 类 的 情况 下 ， 属 性 无 法 共享 ， 
能 复制 代码 。DRY 原则 ”认为 ， 复 制 代码 是 一 种 恶习 ， 
不 好 的 做 法 。 

我 们 来 看 一 个 实际 的 例子 。Smalltalk 中 有 管理 输 
人 输出 的 Stream 类 ， 这 个 类 中 有 人 负责 读 取 的 子 类 
ReadStream 和 负责 写 和 人 的 子 类 WriteStream,， 还 有 了 既 
可 以 读 又 可 以 写 的 子 类 ReadWritestream。 

在 支持 多 重 继承 的 语言 
会 被 设计 为 继承 ReadStream 和 WriteStream 这 两 个 类 
(图 1-25a )， 这 是 多 重 继承 的 比较 理想 的 一 个 案例 。 但 是 
Smalltalk 不 支持 多 重 继承 ， 所 以 就 上 ReadwritesStream 
成 为 WriteStream 的 子 类 ， 然后 将 ReadStream 的 代码 
复制 过 来 (图 1-25b ), 假如 Readstream 发 生变 更 ,那么 
复制 了 ReadStream 代码 的 ReadWriteStream 也 必须 
相应 地 进行 修改 ， 否 则 就 会 出 现 bug， 这 是 最 糟糕 的 。 
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, ReadWriteStream 一 般 
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Mix-in 














: M5 


>M3 一 M1 一 M4 一 M1 一 M2 





ReadStream 


ReadStream 


: M5 
: M5 一 M4 一 M3 一 M2 一 M1 


ReadWriteStream 


>M3 一 M4 一 M1 一 M2 


DAG 的 搜索 顺序 


(a) 使 用 了 多 重 继承 的 ReadWriteStream 








WriteStream 


(b) Smalltalk 的 ReadWriteStream 







WriteStream 


(复制 了 Read- 
Stream 的 代码 ) 


ReadWriteStream 


1-25 ReadWriteStream 





Mix-in 给 了 我 解决 这 个 问题 的 启示 。Mix-in 是 在 Lisp 系 的 面向 对 象 语言 Flavors 中 诞生 的 一 项 








(D DRY Æ “Don’t Repeat Yourself ”的 缩写 ， 这 是 一 个 软件 设计 原则 ， 指 软件 开发 时 要 避免 重复 。 
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技术 。Flavors 虽然 是 文 持 多 重 继承 的 面向 对 象 语言 ， 但 是 为 了 减轻 刚才 讲 过 的 多 重 继承 的 问题 ， 该 
语言 对 第 二 个 之 后 的 父 类 进行 了 如 下 限制 。 

















。 不 得 实例 化 
e 不 得 有 ( 普通 的 ) 父 类 ， 可 以 用 其 他 的 Mix-in 
































按照 这 些 规则 ， 多 重 继承 的 网 状 结构 会 变 成 第 一 个 父 类 为 树 结构 ， 第 二 个 之 后 的 父 类 为 像 长 出 
了 树枝 一 样 的 结构 。 使 用 这 个 技术 实现 和 图 1-25 相同 的 结构 ， 如 图 1-26 所 示 。 虽 然 和 直接 使 用 多 
重 继承 的 结构 大 不 相同 ， 但 是 保持 了 单一 继承 的 简洁 性 ， 而 且 不 需要 复制 代码 。 





















































Ruby 的 模块 


Mix-in 的 确 是 个 好 方法 ， 不 过 它 只 是 多 重 继 
承 用 法 上 的 一 个 技巧 ， 并 没有 强制 力 ， 因 此 我 考 


虐 在 语言 层面 上 强制 使 用 Mix-in， 也 就 是 准备 两 
种 类 一 种 是 用 于 主 继承 的 普通 的 类 ， 另 一 种 是 


只 能 作为 Mix-in 使 用 的 特殊 的 类 。 这 个 特殊 的 类 
需要 遵循 Mix-in 的 规则 ， 禁 止 实例 化 和 从 普通 类 


继承 。 
Ruby 的 模块 就 是 根据 这 个 想法 诞生 的 。 ReadWriteStream 
module 语句 定 义 的 内 容 恰好 满足 前 面 所 说 
的 Mix-in 的 性 质 ( 图 1-26 的 Readable 和 
Writable 就 相当 于 module )。 使 用 这 一 技术 ， 我 们 就 能 回避 多 重 继承 的 缺点 ， 降 低 复杂 程度 。 
差不多 和 Ruby 在 同一 时 期 ， 其 他 语言 〈 例 如 曾经 的 太阳 微 系 统 公司 研究 的 Self 语言 ) 也 使 用 
trait 或 者 mixin 等 名 字 提 供 了 这 样 的 结构 。 













































1-26 Mix-in 


























错误 处 理 





软件 开发 中 最 麻烦 的 就 是 错误 处 理 。 想 打开 的 文件 不 存在 、 网 络 连接 中 断 、 内 存 不 足 等 ， 软 件 
不 按 预期 工作 的 异常 情况 要 多 少 有 多 少 。 像 C 这 样 的 语言 在 出 现 了 异常 的 函数 调用 之 后 ， 就 需要 去 
检查 函数 是 否 正常 结束 ( 图 1-27 )。 

从 图 1-27 的 代码 中 可 以 清楚 地 看 出 ,“ 打 开 文 件 ” 的 意图 只 用 一 行 代码 就 能 描述 出 来 ， 而 与 此 
相 比 ， 错 误 处 理 则 非常 烦琐 。 这 就 违反 了 “简洁 地 表达 意图 ”这 一 Ruby 的 设计 原则 ， 无 论 如 何 都 
要 想 办 法 解决 。 
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Bae open( Dace 
if (f == NULL) {  // 文件 没有 正常 打开 
switch (errno) ( // 错误 的 详细 信息 保存 于 变量 errno 中 
case ENOENT: // 文件 不 存在 





















































break; 
case EACCES: // 文件 访问 权限 错误 
break; 


图 1-27 C 的 错误 处 理 


最 先 考虑 的 是 使 用 Icon 语言 的 错误 处 理 结 构 。 美 国 亚利桑那 大 学 开发 的 Icon 语言 中 所 有 函数 
调用 都 会 返回 成 功 ( 返回 值 ) 或 者 失败 的 结果 。 如 果 函 数 调用 失败 ， 那 么 调用 者 的 函数 也 会 运行 失 
败 ， 这 一 点 与 C++ 和 Java 等 语言 的 异常 处 理 结构 相 似 。Icon 的 特殊 之 处 在 于 把 失败 值 当成 布尔 值 
处 理 。 

也 就 是 说 ， 下 面 这 行 代码 因 某 种 原因 执行 失败 时 ， 这 个 调用 者 的 函数 也 会 执行 失败 ， 导 致 处 理 
"PUB 



























































line :- read() 


下 面 的 代码 表示 ， 当 read () HITRI, write) 函数 会 被 执行 ， 和 否则 什么 都 不 做 。 


if line :- read() then 


write (line) 





而 下 面 的 代码 则 表示 ， 只 要 read() 执行 成 功 ， 就 会 循环 去 write () Xf read O 函数 的 返回 
fH, read O 或 者 write () 中 只 要 有 一 个 执行 失败 ， 就 会 中 止 循环 。 











while write (read()) 





这 种 结构 不 需要 使 用 特殊 的 语法 就 可 以 自然 地 编写 异常 处 理 ， 这 一 点 很 有 魅力 ， 但 是 这 样 的 
异常 处 理 不 容易 引 人 注 意 ， 而 且 与 “普通 ”语言 差别 大 大 ， 往 往 让 人 敬而远之 ， 处 理 效率 方面 也 
令 人 担心 ， 因 此 我 最 终 没有 采用 这 种 结构 。 假 如 我 采用 了 这 种 结构 ， 那 么 Ruby 就 和 现在 大 不 相 
同 了 。 
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如 果 你 想 设 计 一 门人 气 语言 ， 那 么 在 采用 不 同 于 其 他 语言 的 设计 时 ， 就 需要 考虑 它 是 否 会 成 
为 语言 的 亮点 。 如 果 你 特别 执着 于 这 个 设计 ， 那 么 也 可 以 不 做 出 让 步 ， 但 假如 你 明明 并 不 是 那么 在 
意 ， 却 没 经 过 仔细 考虑 就 采用 了 “怪异 的 语法 ”， 可 能 就 为 今后 坦 下 了 祸根 。 




















对 异常 的 关键 字 有 讲究 


虽然 放弃 了 使 用 Icon 语言 式 的 异常 处 理 ， 但 我 还 是 希望 Ruby 能 拥有 某 种 形式 的 异常 处 理 功 
能 ， 于 是 我 决定 采用 C++ 等 语言 中 的 “普通 ”的 异常 处 理 结 构 (Java 那 时 还 没有 出 世 )， 不 过 我 对 
关键 字 有 一 点 讲究 。 

C++ 的 异常 处 理 用 的 是 try~catch 语句 ， 不 过 我 不 怎么 喜欢 这 个 关键 字 。 因 为 try 给 人 一 种 
“ 斌 试看 ”的 感觉 。 既 然 所 有 的 方法 调用 都 可 能 会 发 生 异 常 ， 那 么 说 “ 试 试看 ”就 不 太 恰 当 了 。 男 
外 ，catch 这 个 词 也 不 能 让 人 联想 到 异常 处 理 。 

于 是 ， 我 从 设计 代码 块 时 参考 过 的 Eiffel 语言 中 借鉴 了 rescue 一 词 。rescue 这 个 词 给 人 一 种 
“从 危险 状态 中 解救 出 来 ”的 感觉 ， 用 在 异常 处 理 中 正 合适 。 

男 外 ，ensure 这 个 关键 字 也 是 从 Eiffel 语言 中 借鉴 过 来 的 ， 用 于 无 论 是 否 发 生 异 常 都 执行 事 
后 处 理 (有 些 语言 使 用 的 是 finally 这 个 词 )。Eiffel 中 的 关键 字 ensure 不 是 用 于 异常 处 理 ， 而 
是 用 于 表示 在 DBC (Design by Contract, HARIH ) 中 使 用 的 方法 运行 后 应 该 满足 的 事后 条 件 。 












































代码 块 


最 后 要 说 的 是 代码 块 。 其 实 原本 我 并 没有 特别 重视 代码 块 的 设计 ， 但 后 来 人 们 经 常 说 代码 块 是 
Ruby 最 大 的 一 个 特征 ， 作 为 Ruby 的 设计 者 ， 我 也 颇 感 意外 。 

麻 省 理工 学 院 开发 了 一 门 名 为 CLU 的 语言 ， 用 一 句 话 介绍 ，CLU 就 是 面向 对 象 语言 的 前 身 或 
者 抽象 数据 型 语言 。 
CLU 有 一 些 引 人 注目 的 特征 ， 














中 一 个 就 是 迭代 器 (iterator )。 从 代 器 就 是 “将 循环 抽象 化 的 





N 


函数 o 
迭代 器 可 以 通过 如 下 方式 调用 。 


BE deime in times(100) €O times-iter(last:int) yields(int) 


masine ge d) 
end while n « last 
yield (n) 
M LP Y ` ] v v B, B3 B 3 三 dL 
这 段 代码 调用 了 名 为 上 imes KRAKI 3x GHI 


代 器 函数 是 只 能 在 for 语句 中 被 调用 的 特殊 函数 。 end times 


用 CLU 语言 实现 这 个 times 函数 ， 如 图 1-28 所 示 。 
在 迭代 器 函数 中 ， 当 yiela 被 调用 时 ， 传 递 给 图 1-28 用 CLU 语言 实现 的 times 函数 
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yield 的 值 会 被 赋值 给 for 语句 中 指定 的 变量 ， 然 后 运行 从 do 开始 的 代码 块 。 

同样 的 处 理 如 果 用 C 实现 的 话 ， 就 会 用 到 for 语句 或 函数 指针 。 不 过 使 用 for 语句 时 无 法 隐 
藏 循环 变量 以 及 对 内 部 构造 的 访问 等 细节 。 使 用 函数 指针 时 ， 虽然 可 以 隐藏 细节 ( 因为 C 语言 中 没 
HAE), 但 是 变量 之 类 的 传递 会 比较 麻烦 。 

而 CLU 的 迭代 器 不 存在 这 样 的 问题 ， 所 以 用 它 来 进行 循环 的 抽象 化 是 非常 理想 的 。 






































反复 推敲 语法 结构 











于 是 我 考虑 把 CLU 的 迭代 器 引入 到 Ruby 里 ,但 是 再 三 思考 之 后 ， 就 觉得 直接 引入 不 是 很 
好 。CLU 的 迁 代 需 确 实 可 以 很 好 地 将 循环 抽象 化 ， 不 过 这 种 结构 也 可 以 用 于 循环 以 外 的 场景 中 ， 而 
CLU 的 语法 结构 则 恰恰 阻碍 了 它 在 循环 以 外 的 场景 中 使 用 。 

Smalltalk 和 Lisp 中 有 很 多 函数 和 方法 可 以 把 函数 (Smalltalk 中 是 代码 块 ) 当成 参数 来 传递 ， 
然后 用 于 循环 等 处 理 。 例 如 Smalltalk 中 使 用 以 下 代码 就 可 以 将 数组 的 每 个 元 素 乘 以 2， 从 而 得 到 一 
个 新 数组 。 





























[12,3] collects lse| a als 




















如 果 这 个 处 理 用 CLU 的 语法 来 写 ， 就 可 能 会 写成 下 面 这 种 形式 ， 看 起 来 不 大 直观 〈 这 里 只 是 
模拟 了 CLU 的 写法 ,实际 上 CLU 是 不 能 这 么 写 的 )。 














for a um 23 eeeee nae 
cu w A 


end 


















































难道 就 没有 更 好 一 点 的 写法 吗 ? 当时 我 的 大 女儿 刚 出 生 不 入， 晚上 总 是 不 睡 ， 我 就 一 边 哄 她 睡 
觉 一 边 琢磨 这 条 语句 的 写法 。 
一 开始 想到 的 语法 是 下 面 这 样 的 。 




















cimo mele t EIS INT 
mak 


end 








显然 这 个 语法 受到 了 CLU 的 影响 。using 这 个 关键 字 是 从 一 个 叫 Actor 的 PC 语言 中 借鉴 过 
来 的 ， 这 里 所 说 的 Actor 与 并 发 编程 的 Actor 模型 没有 任何 关系 。 然 而 即使 这 样 写 ， 也 没 能 达到 像 
Smalltalk 的 代码 块 和 Lisp 的 匿名 函数 那样 易于 理解 的 程度 。 

经 过 反复 推 谢 ， 最 后 实现 的 语法 如 下 所 示 。 
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2,3] seeDbsee fal e 9 2) 


这 个 语法 已 经 非常 接近 Smalltalk 了 。 只 有 一 个 表示 变量 的 “| ”也 是 受 了 Smalltalk 的 影响 。 之 





后 该 语法 又 被 不 断 完 善 : 没有 变量 时 用 两 个 “| ”表示 省 略 ; 在 与 其 他 以 end 结尾 的 语句 混合 使 


























时 ， 为 保持 风格 一 致 ， 使 用 do-ena 表示 代码 块 。 


扩大 了 使 用 范 


原本 为 了 循环 的 抽象 化 而 参考 CLU 语言 设计 的 代码 块 ， 在 被 引入 Ruby 后 出 现 了 各 种 各 样 的 用 














法 ， 比 如 下 面 这 些 。 





e 循环 的 抽象 化 ( 必 不 可 少 ) 
e 指定 条 件 (select 等 ) 








e 指定 回调 


代码 ( GUI 等 ) 


e 线程 及 fork 的 运行 部 分 





e 指定 作用 ] 


或 ( DSL 等 














代码 块 的 使 











几乎 遍及 各 个 领域 ， 真是 让 人 惊讶 。 











然而 代码 块 只 不 过 是 在 Lisp、Smalltalk 以 及 其 他 函数 式 语言 中 广泛 使 用 的 高 阶 函数 ( 把 函数 作 
为 参数 使 用 的 函数 ) 的 特殊 语句 而 已 ， 所 以 自然 能 实现 以 上 这 些 用 法 。 但 由 于 它 是 专门 为 循环 的 抽 


象 化 而 设计 的 ， 所 以 会 有 一 些 限 制 ， 而 让 我 意外 的 是 ， 这 些 限制 完全 没有 妨碍 到 它 的 使 





刚才 提 到 的 限制 指 的 是 : 
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o 




















e 没有 直接 编写 函数 对 象 function object ) 的 语句 ( 直到 版 本 1.9 中 有 了 lambda 表达 式 ) 




















e 由 于 带 代 码 块 的 i 
























































周 用 被 整合 在 了 语法 中 ， 所 以 一 个 方法 只 能 有 一 个 代码 块 























实际 上 正 是 有 了 这 些 限 1 


RE, WAJER o 


i, REEERE A EBBEASDEUS. ERT. BEES 





根据 某 项 调查 显示 ， 在 函数 式 语言 之 一 的 OCaml 的 标准 库 里 大 量 存 在 的 高 阶 函数 中 ， 有 98% 
都 只 有 一 个 函数 参数 。Ruby 的 方法 参数 中 只 能 有 一 个 代码 块 的 限制 并 没有 带 来 什么 问题 ,或许 也 
是 出 于 同样 的 原因 吧 。 








语言 设计 的 秘 
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APE, Ree BU WEXBDÉ HB I. 
第 一 ， 要 充分 调查 现 有 语言 存在 什么 样 的 问题 ， 以 及 有 哪些 解决 办 法 。 积 累 这 些 琐碎 问题 的 解 
决 经 验 ， 有 助 于 完成 一 个 良好 的 设计 。 
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第 二 ， 对 个 性 的 追求 要 限定 在 “ 某 一 点 ”上 。 我 在 介绍 Icon 的 异常 处 理 时 也 提 到 过 ， 独 具 
格 的 语法 可 能 会 给 初学 者 带 来 挫败 感 ， 在 “ 某 一 点 ”以 外 的 地 方 采取 保守 的 态度 也 会 给 语言 带 来 人 
气 。 但 是 过 于 保守 会 使 语言 在 技术 层面 上 平淡 无 趣 ， 吸引 不 到 用 户 ， 所 以 很 难 掌握 好 这 个 平衡 。 

第 三 ， 站 在 客观 的 角度 。 我 们 都 知道 ， 如 果 大 家 一 起 商量 如 何 设计 ， 最 终 并 不 会 产生 什么 好 的 
结果 。 因 为 大 家 会 相互 妥协 以 达成 统一 意见 ， 从 而 舍弃 设计 中 独特 的 部 分 ， 也 就 失去 了 这 种 独特 设 
计 的 优点 。 因 此 ， 就 算 跟 人 商量 ， 也 要 仅 限 于 寻求 意见 。 如 果 最 终 责 任 不 是 由 一 个 人 来 担负 ， 就 无 
法 做 出 好 的 设计 。 

我 在 设计 代码 块 时 ， 总 是 跟 婴 儿 和 泰 迪 熊 商量， 这 也 是 一 个 办 法 。 也 许 你 会 觉得 这 人 么 做 有 点 



























































会 想 出 更 好 的 主意 。 
小 结 


在 1-4 节 和 1-5 节 ， 我 向 大 家 介绍 了 Ruby 设计 早期 的 一 些 想法 ， 大 家 感觉 怎么 样 ? 

即使 是 一 个 细微 的 语言 细节 ， 设 计 者 也 要 在 经 过 各 种 研究 和 思考 之 后 才能 决定 。 不 知 大 家 是 否 
感受 到 了 这 一 点 。 

不 仅 是 语言 ， 所 有 的 设计 都 是 一 个 权衡 折 中 的 过 程 。 完 美 无 缺 的 设计 是 不 存在 的 ， 存 在 的 只 是 
在 某 种 条 件 下 更 好 的 选择 。 能 否 让 这 个 选择 适用 的 范围 更 广 并 尽 可 能 地 接近 完美 ， 就 要 看 设计 者 的 








不 过 设计 语言 是 一 个 漫长 的 过 程 。 即 使 是 Ruby 这 门 在 大 家 的 认 知 中 还 算 比 较 新 的 语言 ， 从 开 
始 开 发 也 已 经 经 过 二 十 多 年 了 。 这 期 间 计算 机 的 性 能 不 断 提 高 ， 环 境 也 发 生 了 变化 ， 于 是 Ruby X 
出 现 了 新 的 需要 权衡 折 中 的 地 方 。 比 如 Ruby 诞生 之 时 多 核 计算 机 还 没有 普及 ， 所 以 不 会 要 求 线程 
去 有 效 利 用 多 核 CPU， 然 而 现在 面向 个 人 的 计算 机 也 都 已 经 是 双核 、 四 核 的 了 。 

为 了 应 对 这 种 环境 的 变化 ， 我 每 天 都 在 重新 思考 语言 的 设计 和 实现 。 
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时 光 机 专栏 
语言 设计 的 秘诀 适用 于 所 有 设计 














本 节 是 2014 年 8 月刊 中 刊登 的 内 容 。 我 接着 上 一 节 的 内 容 讲述 了 一 些 语言 设计 背后 的 事 
情 ， 介 绍 了 Ruby 的 变量 命名 规则 、 面 向 对 象 功能 的 设计 、 异 常 处 理 等 的 设计 背景 。 

一 般 来 说 ， 在 介绍 一 门 语言 时 ， 大 家 往往 倾向 于 介绍 该 语言 最 终 的 样子 ， 而 不 去 讲解 为 什 
么 是 这 样 的 。 这 次 我 作为 Ruby 的 开发 者 深入 讲述 了 平常 不 会 触及 的 一 些 语言 设计 的 相关 内 容 
( 我 还 算是 讲 得 较 多 的 )。 我 记得 自己 在 写 稿子 的 时 候 也 非常 开心 。 

我 在 写本 节 的 时 候 还 没有 明确 意识 到 ,“ 志 著 了 六 ”和 “设计 ”这 两 个 词 对 应 的 英文 都 是 
"design" /El EXE TU L'ORU "EBD EURTUK— f. 

日 语 的 “元 超 咎 之 ”给 人 的 感觉 是 “决定 样式 "， 而 “设计 ” 则 是 “考虑 结构 "。 我 最 擅长 
的 就 是 决定 编程 语言 具有 什么 样 的 功能 和 语法 ， 这 也 是 我 的 工作 。 我 把 心思 都 放 在 了 语言 的 
“ŽW E, MAREFA “SETT Y” (language design ) 这 个 词 了 。 大 家 是 否 也 觉 
í& "EET U-X v7 -—" (language designer ) 这 个 头衔 很 酷 呢 ? 

在 本 节 后 半 部 分 介绍 的 语言 设计 的 秘诀 中 ， 我 讲 到 了 非常 重要 的 内 容 ( 算是 自 卖 自 夸 
吧 )。 这 些 原 则 不 仅 在 语言 设计 上 ， 而 且 在 所 有 的 软件 设计 上 都 是 通用 的 。 虽 然 我 在 编程 以 外 
的 领域 缺乏 经 验 ， 但 我 认为 这 些 原则 已 经 超越 了 编程 ， 适 用 于 设计 和 需求 的 确定 等 所 有 需要 决 
策 的 领域 。 




























































































































































































































































































































































































(D “design” 这 个 词 在 日 请 中 有 两 种 表示 方法 ， 一 种 是 根据 “design” 这 个 单词 的 发 音 产 生 的 外 来 请“ 元 碎 个 > ”， 男 
一 种 是 “设计 "”。 一 一 译 者 注 
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多 核 时 代 已 经 到 来 ， 即 使 是 日 常 的 编程 场景 也 开始 需要 进行 并 行 编程 了 。 从 本 节 开 






































6， 我 们 将 研究 新 时 代 的 并 行 编程 ， 设 计 支持 并 行 编程 的 新 语言 。 不 过 在 这 之 前 ， 我 
们 先 来 探讨 一 下 为 什么 需要 支持 并 行 编程 的 语言 。 


























如 今 ， 电 器 店 里 卖 的 普通 的 计算 机 都 已 经 搭载 多 核 CPU 了 ， 就 连 智能 手机 也 都 是 4 核 或 者 8 














核 的 。 多 核 如 此 普及 是 有 一 定 原因 的 。 





在 过 去 的 50 年 间 ， 以 CPU 为 首 的 半导体 的 集成 度 按照 摩尔 定律 实现 了 指数 级 增长 ，CPU 的 





性 能 也 随 之 提高 ， 但 这 种 情况 在 前 不 久 出 现 了 终结 的 苗头 ， 因 为 CPU 的 性 能 已 经 没有 提升 空间 了 。 
想必 各 位 读者 也 注意 到 了 ， 近 来 CPU 频率 一 直 维持 在 2 GHz 上 下 ， 不 再 像 以 前 那样 大 幅度 提升 了 。 


多 核 化 接 过 大 旗 





























近 几 年 ， 由 于 大 规模 集成 电路 (LSI) 的 集成 度 过 高 ， 电 路 变 得 只 有 几 个 原子 并 起 来 那么 宽 ， 
所 以 出 现 了 电子 穿 过 绝缘 层 的 “量子 隧 穿 效应 ”等 量子 力学 方面 的 
了 热 密 度 上 升 。 最 近 ，CPU 内 核 的 热 密度 已 经 超过 了 电热 板 。 如 果 没 有 好 的 冷却 办 法 ， 过 不 了 多 
A, 一 插 上 电源 电路 就 会 被 烧 掉 。 特 别 是 进行 复杂 处 理 的 CPU WE, 不管 是 电路 密集 度 还 是 热 密 
度 都 已 经 接近 极限 ,事实 上 已 经 很 难 指望 使 用 单一 内 核 来 实现 性 能 





















































问题。 另外 ， 电 路 的 密集 也 导致 
































大幅 提升 了 。 





但 并 不 是 所 有 电路 的 热 密度 和 复杂 度 都 这 么 高 。 构 成 内 存 和 总 线 的 电路 就 比 CPU 内 核 的 简单 
一 些 ， 不 容易 出 现 热 密度 的 问题 。 因 此 可 以 将 多 个 内 核 放 在 一 个 芯片 上 来 降低 平均 热 密度 ， 这 也 是 











多 核 化 的 一 个 目的 。 





这 种 硬件 进化 的 趋势 在 未 来 一 段 时 间 内 都 不 太 可 能 被 颠覆 。 目 前 单个 CPU 内 核 很 难 实现 性 能 
的 大 幅 提 升 ， 不 管 你 是 否 愿意 ， 想 要 最 大 限度 地 发 挥 新 计算 机 的 性 能 ， 就 只 能 依赖 多 核 。 





并 行 与 并 发 编程 











要 想 有 效 利用 多 核 ， 就 需要 同时 进行 多 个 处 理 。 在 这 种 同时 进行 多 个 处 理 的 编程 中 ， 需 要 注意 


“并 行 ” 和 “并 发 ”两 个 术语 。 








并 行 的 英语 是 “parallel”"， 意 思 是 同时 进行 多 个 处 理 ， 并 发 的 英语 是 “concurrent”"， 意 思 是 至 





少 看 上 去 是 在 同时 进行 多 个 处 理 。 大 家 明 








白 其 中 的 区 别 了 吗 ? 
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并 发 编程 是 指 ， 即 使 只 有 一 个 CPU， 也 要 把 多 个 处 理 分 割 为 小 的 任务 交替 执行 ， 让 这 些 处 理 看 
上 去 像 是 在 被 同时 执行 一 样 。 但 实际 上 在 CPU 只 有 一 个 的 情况 下 ， 一 次 只 能 执行 一 个 处 理 ， 所 以 
无 法 实现 并 行 编程 。 由 于 多 核 环境 中 有 多 个 CPU， 所 以 如 果 可 以 把 处 理 适当 分 配给 多 个 内 核 ， 就 可 
以 实现 并 行 编程 。 

对 大 部 分 软件 开发 者 来 说 ， 并 发 编程 比较 重要 ， 因 为 现在 大 部 分 操作 系统 和 运行 环境 会 根据 
CPU 的 数量 切换 到 相应 的 运行 模式 : 如 果 只 有 一 个 CPU， 就 切换 到 看 上 去 在 同时 执行 处 理 的 运行 模 
式 ; 如 果 有 多 个 CPU， 则 切换 到 真正 在 同时 执行 处 理 的 运行 模式 。 也 就 是 说 ， 只 要 操作 系统 和 运行 
环境 的 开发 者 注意 并 行 和 并 发 的 区 别 即 可 。 

接 下 来 我 们 来 了 解 一 下 迄今 为 止 都 有 哪些 文 持 并 发 编程 的 结构 。 

在 文 持 并 发 编程 的 结构 中 ， 最 具 代 表 性 的 是 进程 和 线程 。 现 在 大 部 分 操作 系统 提供 了 这 两 种 结构 。 







































































在 文 持 并 发 编程 的 结构 中 ， 最 早 的 就 是 进程 。 比 进程 历史 更 悠久 的 还 有 任务 (task )， 不 过 
任务 在 功能 上 与 进程 并 没有 太 大 的 差别 ， 而 且 也 没有 在 Linux 编程 中 出 现 ， 所 以 本 书 中 就 略 去 
不 谈 了 。 

进程 是 操作 系统 中 表示 “运行 中 的 程序 ”的 结构 。 现 在 的 操作 系统 ”可 同时 运行 多 个 程序 。 









































UNIX 的 fork 可 以 进行 复制 

















UNIX 中 使 用 fork 系统 调用 创建 新 的 进程 。fork 系统 调用 会 创建 运行 中 的 程序 的 副本 (又 
一 个 进程 )。 
(EH fork 进行 复制 后 ，fork 会 在 被 复制 的 程序 ( 被 复制 的 进程 ， 也 叫 父 进程 ) 中 返回 新 的 
进程 的 ID ( 整数 )， 在 由 复制 产生 的 新 的 进程 ( 子 进程 ) 中 返回 0。 由 于 子 进程 复制 了 父 进程 ， 所 
以 之 前 绝 大 部 分 的 运行 结果 ， 比 如 变量 值 、 内 存 分 配 等 是 父 进程 的 副本 。 但 由 于 fork 的 返回 值 不 
同 ， 所 以 接 下 来 父 进程 和 子 进 程 会 各 自 进行 处 理 。 

实际 上 在 大 部 分 情况 下 ， 子 进程 中 ( 在 根据 需要 稍微 进行 一 下 准备 工作 之 后 ) 会 启动 别 的 程 
序 。 在 自己 的 进程 中 启动 程序 就 需要 使 用 exec 系列 的 系统 调用 。exec 系列 的 系统 调用 会 在 同 
个 进程 中 替换 要 运行 的 程序 。 

C 语言 的 系统 调用 有 些 复杂 ， 这 里 我 们 用 Ruby 程序 进行 展示 ( 图 2-1 )。 





































































































(D 以 前 的 操作 系统 ， 比 如 MS-DOS 只 能 同时 运行 一 个 进程 。 当 时 ， 支 持 多 个 程序 同时 运行 的 操作 系统 称 为 “多 任务 
操作 系统 "。 不 过 最 近 这 样 的 操作 系统 已 经 极其 普遍 了 ,“ 多 任务 操作 系统 ”这 个 词 也 就 完全 没 人 使 用 了 。 
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pid = fork() # 在 使 用 Ruby 的 情况 下 ， 子 进程 中 会 返回 nil 
if pid 
# 检查 子 进程 是 否 已 运行 完毕 


Process.waitpid (pid) 


























else 
4 启动 echo 
exec "echo", "hello world" 


end 


E] 2-1 使 用 Ruby 进行 fork 和 exec 

fork 用 来 复制 ，exec 用 来 替换 进程 中 运行 的 程序 ， 这 种 fork fll exec 组 合 使 用 的 形式 是 
类 UNIX 操作 系统 所 特有 的 。 而 其 他 很 多 操作 系统 (Windows 等 ) 则 会 提供 用 于 直接 启动 程序 的 
spawn 系统 调用 。 


























创建 进程 的 开销 很 大 


对 于 通过 这 种 方式 启动 的 多 个 进程 ， 操 作 系 统 会 适当 分 配 运行 时 间 ， 让 它们 至 少 在 表面 上 看 起 
来 是 在 同时 运行 的 。 如 果 计 算 机 有 多 个 CPU ( 而 且 操 作 系统 也 支持 多 个 CPU 的 话 )， 操 作 系 统 就 能 
把 进程 分 配给 多 个 CPU， 让 它们 并 行 运行 。 

进程 的 特征 是 各 个 内 存 空 间 都 是 相互 独立 的 。fork 产生 的 进程 复制 了 原 进 程 ， 因 此 在 子 进程 
中 修改 内 存 状态 不 会 影响 到 父 进程 。 即 使 在 子 进 程 中 做 一 些 出 格 的 操作 ， 父 进程 也 是 安全 的 。 
进程 的 缺点 是 开销 大 。 由 于 复制 的 是 整个 内 存 空 间 ， 所 以 用 £ork 创建 进程 的 开销 非常 大 。 最 
近 很 多 操作 系统 采用 了 CoW (Copy on Write， 写 时 复制 ) 等 策略 ，CoW 可 以 使 父子 进程 共享 内 存 
空间 ， 在 需要 修改 时 再 进行 复制 。 但 即便 如 此 ， 复 制 的 开销 也 无 法 忽视 。 

比如 以 前 被 广泛 使 用 的 动态 Web 页 面 技术 CGI" 渐渐 失去 了 人 气 ， 其 最 大 原因 就 是 进程 的 创建 
开销 大 。 




























































































进程 间 通 信 困 难 








进程 的 另 一 个 缺点 就 是 进程 间 通 信 困 难 。 内 存 空 间 相 互 独立 ， 从 安全 性 的 角度 来 看 的 确 是 一 个 
优点 ,但 同时 也 阻碍 了 多 个 进程 之 间 的 信息 交换 。 

在 类 UNIX 操作 系统 中 ， 进 程 之 间 信息 交换 的 手段 有 限 ， 主 要 有 父子 进程 通过 共享 管道 的 方式 
使 用 管道 数据 流通 信 、 使 用 套 接 字 通信 、 通 过 文件 来 交换 信息 、 共 享 内 存 等 方式 。 另 外 还 可 以 通过 

















































































































(D. CGI ( Common Gateway Interface， 通 用 网 关 接口 ) 是 一 种 动态 Web 页 面 技术 ， 针 对 Web 页 面 的 请 求 启动 一 个 进 
程 ， 并 将 这 个 进程 的 输出 传送 给 浏览 器 ， 以 此 来 提供 动态 Web 页 面 。 
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[rit (semaphore ) 和 信号 (signal ) 等 机 制 进行 进程 之 间 的 并 发 控制 。 

不 管 是 哪 种 共享 信息 的 手段 ， 最 终 传递 的 都 是 字 节 序列 。 要 想 发 送 数值 、 数 组 和 映射 (map ) 
等 字符 串 以 外 的 数据 ， 就 需要 先 将 它们 转换 成 字符 串 发 送 ， 然 后 解析 字符 串 并 将 其 恢复 为 数据 。 通 
信 数 据 量 增多 时 ， 这 种 转换 开销 也 不 容 忽视 。 
























































m 线程 s 
线程 是 在 一 个 程序 之 中 共享 内 存 空 间 ， 同 时 对 多 个 处 理 流程 进行 控制 的 结构 。 由 于 不 需要 复制 
内 存 空 间 ， 所 以 线程 要 比 进程 的 创建 开销 小 ， 这 是 它 的 一 个 很 明显 的 优点 。 


在 我 刚 进入 编程 领域 时 ， 线 程 还 不 是 一 个 随处 可 用 的 功能 ， 但 如 今 却 大 不 相同 。 线 程 不 仅 在 
POSIX 中 被 标准 化 ， 还 可 以 在 Windows 系统 (不 过 API 有 所 不 同 ) 中 使 用 。 























通信 开销 小 











得 益 于 内 存 空间 的 共享 ,线程 间 的 通信 开销 很 小 ， 这 是 线程 的 主要 特征 。 不 管 是 字符 串 、 整 数 
还 是 结构 体 ， 无 论 多 么 复杂 的 数据 结构 都 可 以 实现 零 开销 访 问 。 

但 是 共享 内 存 空 间 带 来 的 也 不 全 是 好 事 。 多 个 处 理 同 时 执行 就 意味 着 不 知道 什么 时 候 数 据 就 会 
发 生 改 变 ， 可 能 还 没 等 你 反应 过 来 ， 数 据 就 已 经 乱 套 了 。 

另外 ， 数 据 的 一 致 性 也 无 法 得 到 保证 。 比 如 图 2-2 的 程序 ， 从 a 中 减 去 1000， 又 在 另 一 个 
线程 中 给 a 加 上 1000， 最 终结 果 应 该 和 原来 的 值 5000 一 样 ， 但 有 时 候 返 回 的 却 是 其 他 的 值 。 在 
“a = a + 1000” 部 分 , 也 就 是 从 取出 a 的 值 再 到 把 新 值 赋 给 a 之 间 的 这 个 微妙 的 时 间 点 上 ， 如 
其 他 线程 正好 修改 了 a 的 值 ， 就 会 得 到 和 预期 不 同 的 结果 ( 图 2-3 )。 






























































a - 5000 
th = Thread.fork( 线程 线程 2 
asat 1000 线程 线程 
} a = 5000 
取出 a 的 值 ( 5000 ) 
a — a - 1000 5000 + 1000 取出 a 的 值 ( 5000 ) 
th .join 把 结果 赋值 给 a( 6000) | 5000 - 1000 
püps "aca # 结果 是 ? a = 6000 把 结果 赋值 给 a( 4000 ) 
i a = 4000 
图 2-2 有 问题 的 线程 程序 图 2-3 ”线程 导致 数据 一 致 性 被 破坏 


并 发 控制 变 得 复杂 


要 避免 这 个 问题 ， 就 需要 使 用 “并 发 控制 "， 避 免 同 时 访问 必须 保持 数据 一 致 性 的 地 方 ( 图 2-4 )。 
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在 修改 可 能 会 被 多 个 线程 访问 的 数据 ( 本 例 中 的 变量 a ) 之 前 ， 可 以 通过 加 锁 的 方式 来 保证 只 有 一 
个 线程 能 访问 这 个 数据 。 
前 面 也 提 到 过 ， 线 程 中 会 有 多 个 处 理 流程 同时 运行 ， 
所 以 即使 多 次 执行 同一 个 程序 ， 问 题 也 是 时 有 时 无 。 像 m = Mutex.new 
这 种 可 重复 性 较 差 的 bug 俗称 “ 海 森 保 bug””。 这 种 bug a = 5000 
很 难 被 发 现 ， 处 理 起 来 比较 末 手 。 MD SEEN 




















m.lock 
线程 的 缺点 和 难点 并 不 止 这 些 。 的 确 ， 由 于 不 需要 了 
复制 内 存 空间 ， 线 程 比 进程 的 创建 开销 要 小 ， 但 当 创 建 m.unlock 
线程 时 仍然 需要 进行 系统 调用 。 } 








当 进行 系统 调用 时 ， 不 仅 需 要 切换 到 能 执行 特权 指 "170%* 
今 的 内 核 空间 ， 还 需要 耗费 大 量 的 CPU 指令 。 如 果 创建 ”了 
线程 的 频率 很 高 ， 那 么 这 个 开销 也 是 不 能 忽视 的 。 而且。 tpn.join 
每 次 生成 新 线程 时 都 需要 为 线程 栈 空间 分 配 几 兆 的 内 存 。 ”puts "a=",a  # 结果 是 5000 
如 果 要 创建 1000 个 线程 的 话 ， 光 是 这 些 线程 就 需要 耗费 
1GB 的 内 存 。 图 2-4 ”通过 并 发 控制 保持 数据 的 一 致 性 




















m 理想 的 并 发 编程 


从 开销 的 角度 考虑 ， 操 作 系 统 提 供 的 用 于 并 发 编程 的 进程 和 线程 并 不 理想 ， 而 且 很 多 时 候 还 
要 注意 并 发 控制 等 。 
于 是 我 不 断 摸索 ， 找 到 了 比 进程 和 线程 更 高 级 的 并 发 编程 结构 。 下 面 就 对 其 中 一 部 分 进行 


介绍 。 








Er 
































Actor 模型 











Actor 模型 是 美国 麻 省 理工 学 院 的 卡尔 * 休 伊 特 (Carl Hewitt) 于 1973 年 左右 设计 的 一 个 计算 
模型 。 在 Actor 模型 中 ， 所 有 对 象 都 有 Actor 这 个 独立 的 处 理 流程 。 

Actor 之 间 可 以 传递 异步 消息 。 异 步 指 的 是 消息 发 送 之 后 不 需要 等 待 处 理 结果 ， 通 过 接收 从 对 
方 Actor 返回 的 消息 来 获取 消息 的 应 答 。 

面向 对 象 本 来 就 是 为 操作 用 于 模拟 的 对 象 而 诞生 的 ， 因 此 可 以 说 Actor 模型 推动 了 它 的 发 展 。 
虽然 出 现 了 一 些 可 以 用 Actor 表现 所 有 数据 的 编程 语言 ， 但 这 些 语言 都 没 能 普及 开 来 。 比 如 东 
京 大 学 开发 的 ABCL/1 等 ， 并 未 得 到 实际 应 用 。 





























中 “ 海 森 堡 bug” 这 个 名 字 取 自 于 提出 了 量子 力学 “不 确定 性 原理 ”( 俗称 “ 测 不 准 原 理 ”) 的 物理 学 家 海 森 堡 。 
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Erlang 的 “进程 ” 





直接 实现 Actor 模型 的 语言 虽然 没 能 得 到 普及 ， 但 受 Actor 模型 影响 的 语言 却 有 不 少 ， 其 中 具 
有 代表 性 的 是 Erlang。 
诞生 于 1986 年 的 Erlang 是 支持 分 布 式 并 发 编程 的 高 可 靠 性 语言 。 据 说 它 是 瑞典 爱立信 公司 为 
了 开发 电话 交换 机 等 软件 而 开发 的 语言 。 
虽然 Erlang 是 函数 式 语言 ， 没 有 对 象 ， 但 是 有 “进程 ”这 个 概念 。 据 Erlang 的 设计 者 乔 * 阿 
姆 斯 特 度 (Joe Armstrong) 所 说 ， 之 所 以 称 为 “进程 ”， 是 因为 它 不 共享 内 存 ， 与 线程 不 同 。 但 老 
实说 ， 这 个 概念 非常 容易 与 操作 系统 的 进程 混淆 ， 真 希望 他 能 改 一 改 这 个 叫 法 。 

Erlang 的 进程 与 操作 系统 的 进程 相 比 非常 轻 量 ， 平均 每 个 进程 只 消费 几 百 个 字 节 。 不 仅 如 此 ， 
创建 是 在 用 户 模式 下 进行 的 ， 没 有 系统 调用 ， 因 此 花费 的 时 间 也 很 少 。 

这 个 进程 相当 于 Actor 模型 中 的 Actor。Erlang 语言 处 理 器 会 根据 计算 机 的 CPU 内 核 数 创建 线程 ， 
然后 将 各 个 Erlang 进程 分 配给 这 些 线程 去 执行 ， 因 此 在 多 核 环境 中 可 以 最 大 程度 地 使 用 多 个 CPU 内 核 。 
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我 们 可 以 向 Erlang 的 进程 发 送 消息 。 消 息 发 送 是 单方 向 异步 的 ， 也 就 是 说 不 需要 等 待 结果 返 
回 。 如 果 想 要 得 到 结果 ， 就 需要 在 消息 中 添加 发 送 消息 一 方 的 进程 ID ， 这 样 对 方 进程 就 会 把 处 理 
结果 作为 消息 返回 来 ( 图 2-5 )。 

Erlang 是 函数 式 编程 语言 ， 儿 乎 所 有 的 数据 结构 都 是 不 可 变 的 (immutable )。Erlang 进程 之 间 
除了 通过 消息 共享 数据 以 外 ， 基 本 上 没有 其 他 数据 共享 的 方法 ( 实际 上 还 有 内 骨 数 据 库 这 种 信息 交 
换 方式 )。 因 此 ， 在 介绍 线程 时 提 到 的 问题 基本 上 不 会 在 Erlang 中 发 生 。 

这 种 发 送 消息 的 程序 经 常 出 现 一 个 问题 ， 就 是 程序 bug 使 消息 发 送 失 败 ， 进 而 使 整个 程序 停止 
运行 。 不 过 高 可 靠 性 的 Erlang 很 善于 编写 错误 处 理 代码 ， 比 如 可 以 轻松 编写 出 消息 接收 超时 这 种 情 
况 的 处 理 代 人 码 ， 也 很 容易 编写 出 检测 到 进程 异常 退出 后 重启 进程 的 错误 处 理 代 码 。 































































































-module (pingpong). 
-export([start/0, ping/2, pong/0]). 











& 此 处 代码 只 有 在 N 为 0 时 被 调 

$ 向 Pong 发 送 fijnished 消 息 

Biel(v0, Benc hb) => 
bonc msshedy 


























io:format("ping finished-n", []); 

















$ 此 处 代码 只 有 在 N 为 0 时 被 调 
$ 用 "Pong PID ! {ping，self()}" 发 送 消息 
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receive 接 收 消息 


然后 循环 











收 pong 消 息 ， 





oo o9 oe 
we xum 
XE 
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ping(N, Pong PID) -» 


io:format("Ping received pong-n", 





























io:format("Pong finished-n", 


io:format("Pong received ping-n", 


于 Erlang 没 有 正式 的 循环 语法 ， 所 以 使 / 








递归 








[1) 


ANE 





1); 


EI 


Pong PID ! (ping, self()), 
receive 
pong -» 
end, 
[exse ((N = ly BEng DID) = 
$ Pong 的 实现 
$ 收 到 finished 消 息 时 结束 程序 
$ 收 到 ping 消 息 时 返回 pong， 循 环 这 一 
pong) s 
receive 
finished -> 
(ping, Ping PID) -> 
Ping PID ! pong, 
pong() 
end. 





程序 从 这 里 开始 
F 








oo oe 



































spawn 创 建 两 个 进程 ， 让 它们 进行 pingpong 
stare) -» 
Pong PID - spawn(pingpong, pong, 





spawn(pingpong, ping, [3, 


图 2-5 Erlang 的 消息 发 送 


Go 的 goroutine 


谷歌 公 
goroutine 这 个 词 代替 
的 进程 一 样 ， 内 存 消费 量 少 ， 
CPU e 量 将 处 理 分 配 到 多 个 线程 执行 ， 

o 语言 使 用 go 语句 创建 














m Go 语言 与 Erlang 相似 ， 也 支持 以 消息 通信 为 基础 的 并 发 编程 。Go 语言 
进程 这 一 术语 ， 在 名 称 上 不 会 
创建 的 时 间 成 本 小 ， 而 


5, 
Donc 














中 用 
引起 混乱 ， 这 一 点 非常 好 。goroutine 和 Erlang 
且 可 以 在 一 个 进程 中 大 量 创建 。 另 外 ,在 根据 
从 而 有 效 使 用 多 核 这 一 点 上 ，goroutine 也 和 Erlang 相同 。 



































新 的 goroutine。 男 外 ，Erlang 中 进程 自身 是 消息 发 送 的 目的 地 ， 而 在 
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Go 语言 中 则 要 发 送 消息 到 chan ( channel， 通 道 ) 对 象 。 因 此 ，Erlang 中 的 如 下 处 理 











e 用 spawn 创建 进程 
e 向 进程 发 送 消息 


， x [| 条 省 
e H receive 接收 消息 
















































































在 Go 语言 里 会 变 为 





























e 事先 创建 chan 
e 创建 goroutine， 向 它 传 递 chan 对 象 
e 向 chan 发 送 消息 


e 用 select 从 chan 接收 消息 

























































































Go 语言 有 两 个 特点 ， 一 个 是 必须 显 式 地 传递 消息 通信 的 通道 ， 另 一 个 是 无 法 得 到 goroutine 的 ID。 
图 2-6 是 用 Go 话 言 重 写 的 Erlang 的 pingpong 程序 。 我 对 Go 语言 还 不 是 很 熟悉 ， 所 以 图 2-6 的 
代码 可 能 有 不 符合 Go 语言 编码 习惯 的 地 方 。 
































package main 


rimo ust Mete medi 


func ping(n int, ping, pong chan int) ([ 
"exc 4 
pongescen; 
ai om ee 
fmt.Printlin("ping finished"); 


eum 
«- ping 
TE ne P 


func pong(ping, pong, quit chan int) ( 
"exe d 
no z= pong 
iE m ME 
fmt.Println("pong finished"); 
Gibe s= Op 


return; 
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fmt.Println("pong sending ", n); 


ping «- n; 


} 


} 

func main() ( 
pingc :- make(chan int); 
pongc :- make(chan int); 
quitc :- make(chan int); 
go pong(pingc, pongc, quitc); 
crust ED uc once 
<- quitc; 

} 


图 2-6 用 Go 语言 编写 的 pingpong 程序 





老实 说 Erlang 的 代码 更 为 简洁 ，Go 语言 
是 静态 类 型 语言 ， 因 此 我 猜想 开发 者 在 设计 Go 时 希望 
消息 传递 的 是 哪 种 类 型 的 数据 、 区 分 使 用 多 个 通道 等 。 





Clojure 的 STM 





Ph 必须 显 式 地 创建 并 传递 通道 这 一 点 有 些 麻 烦 。 但 Go 


它 能 够 更 加 灵活 ， 比 如 需要 显 式 地 声明 作为 














在 介绍 线程 时 ， 我 们 提 到 过 在 存在 信息 共享 的 情况 下 如 果 不 进 行 适当 的 并 发 控制 ,数据 就 会 遭 





到 破坏 (丧失 一 致 性 )。 





类 似 的 问题 也 会 在 接受 多 个 客户 端 访问 的 数据 库 中 发 生 。 数 据 库 在 设计 上 需要 遵循 ACID 原 
WJ, ACID 取 自 于 Atomicity ( 原子 性 )、Consistency ( 一 致 性 )、Isolation ( 隔离 性 ) 和 Durability 


(持久 性 ) 这 4 个 要 素 的 首 字 母 。 














原子 性 是 指 对 数据 库 的 操作 要 么 全 部 执行 ， 要 么 就 什么 都 不 做 ， 不 允许 在 中 间 某 个 环节 结束 。 











因为 无 法 再 进行 分 割 ， 所 以 用 了 “原子 ”这 个 词 。 








一 致 性 是 指 保证 数据 库 的 状态 永远 符合 预 设 的 规则 ， 不 符合 预 设 规则 的 处 理会 被 取消 。 例 如 在 
存款 账户 管理 系统 中 ， 如 果 设 定 余 额 必须 永远 为 正 数 ， 那 么 取出 超过 余额 的 钱 的 操作 就 不 满足 预 设 





规则 ， 无 法 进行 。 








隔离 性 是 指 无 法 从 外 部 看 到 保持 了 原子 性 的 一 系列 处 理 的 中 间 状 态 。 
持久 性 是 指 在 保持 了 原子 性 的 一 系列 处 理 结束 时 ， 其 结果 会 被 保存 起 来 ， 不 会 丢失 。 








引入 数据 库 的 概念 

















在 数据 库 中 ， 我 们 把 原子 性 的 单位 称 为 事务 ( transaction )。 事 务 中 可 以 查看 和 更 新 数据 ， 但 是 
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外 部 看 不 到 处 理 的 中 间 状 态 ， 只 有 在 事务 成 功 之 后 外 部 才能 看 到 更 新 的 结果 。 如 果 事 务 处 理 出 于 某 
些 原因 而 失败 ， 那 么 之 前 的 所 有 更 新 都 会 被 取消 。 
把 数据 库 中 使 用 的 事务 概念 引入 普通 
编程 中 去 的 是 Clojure 中 的 STM (Software (define a (ref 5000) ) 
Transactional Memory , 软件 事务 内 存 ) | 












































- (dosync 
图 2-7 是 在 Clojure 中 使 用 STM 的 程 (ref-set a (+ (deref a) 1000)))))) 
序 示 例 。 事 务 在 dosync 包围 的 部 分 中 用 (dosync 
ref 生成 共享 信息 ， 用 aeref 查看 信息 (merca aenea c MOTO D 


用 re£-set 更 新 信息 。Clojure 的 数据 结构 (人 če) 
基本 上 是 不 能 修改 的 ， 因 此 在 原则 上 就 需 e 
要 使 用 事务 去 更 新 信息 。 














(println (str "as" (deref a)))) 








图 2-7 Clojure 的 STM 
小 结 





本 节 介 绍 了 并 发 编程 的 必要 性 以 及 各 种 语言 为 支持 并 发 编程 所 引入 的 结构 。 在 2-2 节 ， 我 们 将 
在 本 节 内 容 的 基础 上 探讨 什么 是 理想 的 并 发 编程 语言 。 

















时 光 机 专栏 















































本 节 是 2014 年 12 月 刊 中 刊登 的 内 容 。 虽 然 本 节 只 介绍 了 并 发 编程 的 背景 ， 但 我 们 也 算 3 

入 到 了 支持 并 发 编程 的 语言 的 设计 环节 。 
我 在 很 早 之 前 就 想 设计 一 门 支 持 并 发 编程 的 语言 。 原 本 是 想 让 Ruby 支持 并 发 编程 ， 所 以 
在 很 早 的 时 候 就 引入 了 线程 。 但 是 在 开发 Ruby 的 20 世纪 90 年 代 ， 计 算 机 还 都 是 单 核 的 ， 不 
需要 考虑 并 行 计算 的 运行 环境 ， 于 是 我 就 没有 考虑 多 核 环境 的 应 对 策略 。 这 也 导致 在 多 核 计算 
机 普及 的 近 几 年 ， 屡 屡 能 听 到 对 Ruby 的 线程 实现 不 满 的 声音 。 

不 仅 如 此 ， 一 想到 要 使 用 线程 ， 就 会 让 人 感受 到 前 文 所 说 的 那 种 开发 难度 。 近 几 年 ， 多 核 
环境 被 充分 使 用 ， 人 们 对 更 简单 、 更 准确 的 并 发 编程 语言 产生 了 更 大 的 需求 。 想 必 本 节 介 绍 的 
Erlang 和 Go 也 是 这 种 需求 催生 的 产物 。 不 过 ， 我 认为 还 可 以 实现 其 他 抽象 度 更 高 的 并 发 编程 ， 
这 也 正 是 我 开发 Streem 语言 的 原因 。 



































































































































































































































中 ”需要 注意 的 是 ，STM 的 结果 只 是 保存 在 临时 存储 数据 的 内 存 中 ， 不 能 充分 满足 持久 性 ， 这 一 点 与 数据 库 不 同 。 
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我 们 在 2-1 节 介绍 了 并 发 编程 的 基础 知识 。 本 节 将 考察 在 多 核 已 经 普及 的 21 世 纪 ， 并 发 
语言 应 该 是 什么 样 的 ， 然 后 再 向 大 家 介绍 按照 这 种 要 求 设计 的 新 语言 Streem。 












































在 多 核 环境 普及 的 现在 ， 人 们 开始 重新 审视 shell 脚 osë 
本 的 价值 。shell 脚本 的 基本 计算 模型 是 用 管道 把 多 个 进 command1 | command2 
程 连接 起 来 。 在 支持 多 核 的 操作 系统 环境 下 ， 这 些 进程 sw 人 CPU 
会 被 分 散 到 多 个 内 核 ， 从 而 自动 形成 有 效 使 用 多 核 的 形 cpu1 Sat 


式 。 只 要 恰当 地 选择 计算 模型 ， 就 能 以 自然 的 形式 进行 
并 发 运行 。 图 2-8 Rd RU 
据说 有 些 业 务 系统 的 核心 部 分 也 是 用 shell 脚本 处 理 





























将 运行 结果 输出 至 从 管道 中 读 取 数 据 
的 。 这 些 系统 使 用 shell 脚本 对 信息 进行 筛选 和 加 工 ， 与 “管道 本 进行 处 理 
以 前 的 做 法 相 比 ， 变 更 成 本 更 低 ， 灵 活性 也 更 高 。 图 2.8 并 发 shell 脚本 


现在 的 shell 脚本 还 不 够 理想 


但 shell 脚本 也 有 不 够 理想 的 一 面 。 

p 前 面 也 提 到 过 ， 操 作 系统 进程 的 创建 开销 非常 大 ， 而 shell 脚本 以 极 小 的 粒度 大 量 创建 
进程 ， 这 会 对 性 能 造成 不 利 影响 。 
3o 下 开销 。 由 于 连接 进程 的 管道 只 能 发 送 字 节 序列 ， 所 以 在 传递 有 结构 的 数据 时 ， 发 
送 者 需要 将 数据 转换 为 字 节 序列 ， 而 接收 者 则 需要 再 将 其 转换 回 数据 。 比 如 用 逗号 作 分 隔 符 的 
CSV ( Comma Separated Values ) 以 及 用 于 JavaScript 对 象 表示 的 JSON (JavaScript Object Notation ) 







































































就 较为 常用 。 把 数据 转换 为 这 种 形式 的 字 节 序列 ， 再 解析 字 节 序列 转换 回 数据 ， 这 其 中 的 开销 不 容 
NL 

大 多 数 人 使 用 多 核 是 因为 想 要 处 理 大量 的 数据 ， 或 者 拥有 更 好 的 性 能 。 可 想 而 知 ， 数 据 转换 和 
进程 创建 的 开销 是 巨大 的 。 这 也 是 shell 脚本 的 一 个 缺点 。 

另外 ， 构 成 管道 的 进程 的 命令 是 零 零 散 散 地 开发 出 来 的 ， 这 些 命令 在 用 法 上 各 不 相同 ， 难 以 熟 
练 掌握 。 
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21 世纪 的 脚本 语言 


这 么 说 来 ， 如 果 能 够 把 shell 脚本 的 优点 和 通用 ”任务 在 等 待 队列 中 排队 
编程 语言 的 优点 结合 起 来 ， 就 能 产生 最 强 语言 了 。 

那么 我 们 就 来 思考 一 下 最 强 语言 应 该 具备 什 
么 样 的 条 件 。 

第 一 个 条 件 是 轻 量 级 并 发 运行 。 操 作 系统 级 
别 的 进程 和 线程 的 创建 开销 较 大 ， 所 以 尽量 不 去 创 
建 它 们 。 可 行 的 实现 方法 是 ， 在 一 个 操作 系统 进程 
之 中 预先 创建 与 计算 机 的 内 核 数 Cro) 相等 的 线 ”图 2.9 并 发 结构 的 架构 
程 ， 然 后 让 它们 交替 运行 。 被 公认 为 是 并 发 语言 ” 轮 到 的 任务 在 操作 系统 线程 中 并 发 运行 。 在 VO 等 待 等 情况 下 
的 Erlang 和 Go 也 采用 了 这 种 实现 方式 ( 图 2-9), 进行 普 换 
Erlang 的 进程 和 Go 的 goroutine 在 这 里 被 称 为 “任务 ”。 

第 二 个 条 件 是 要 排除 并 发 运行 中 的 竞争 条 件 ， 具 体 来 说 就 是 排除 “状态 ”。 变 量 和 属性 的 值 发 
生变 化 时 会 产生 不 同 的 状态 ， 如 果 运 行 时 机 不 对 ， 就 可 能 会 出 现 问题 ， 因 此 就 让 所 有 的 数据 都 不 可 
变 ， 以 此 来 避免 这 类 问题 的 发 生 。 

第 三 个 条 件 是 计算 模型 。 虽 然 2-1 节 介 绍 的 线程 那样 的 模型 表达 力 很 强 ， 但 是 太 过 自由 ， 写 出 来 
的 代码 不 容易 理解 。 于 是 我 参考 了 shell 的 运行 模型 ， 引 入 了 抽象 度 较 高 的 并 发 计算 模型 。 虽 然 抽 象 
度 高 了 ， 但 是 表达 的 自由 度 变 低 了 ， 所 以 还 需要 花心 思 去 编写 ， 不 过 最 终 的 代码 应 该 是 易于 调试 的 。 


























































































m 新 语言 Streem 


下 面 我 们 就 来 设计 满足 这 些 条 件 的 语言 。 因 为 是 以 流 为 计算 模型 的 语言 ， 所 以 就 命名 为 
“Streem”。 虽 然 “ 流 ”的 英文 拼写 是 Stream， 但 是 这 个 词 太 常用 ， 在 搜索 引擎 上 的 可 搜索 性 太 差 ， 
而 Stream 的 仿 词 Streem 除了 拼写 错误 的 情况 以 外 基本 没有 人 使 用 ， 而 且 幸 运 的 是 ，streem.orsg 的 域 
名 也 还 能 注册 。 

我 的 个 人 信条 是 语言 设计 先 从 语法 开始 。 不 过 Streem 是 以 shell 为 基础 的 ， 所 以 语法 上 并 没有 
什么 特别 之 处 ， 基 本 语法 如 下 所 示 。 














RADI | FAR: | sac 


cat 命令 用 于 从 标准 输入 读 取 数据 并 打印 到 标准 输出 。 使 用 上 述 语法 编写 与 cat 命令 作用 同 
样 的 程序 ， 如 下 所 示 。 








Stdin | stdout 
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非常 简单 。stdin 和 stdout 是 表示 标准 输入 输出 的 常量 对 象 。 在 Streem JEF P, stdin 将 
读 取 了 标准 输入 的 行 (字符 串 ) 连续 不 断 地 传递 下 去 ， 看 起 来 就 像 是 在 流动 一 般 ， 我 们 把 这 种 表现 
数据 流动 的 对 象 称 为 “ 流 ”。staout 则 是 把 接收 到 的 字符 串 流 转 到 外 部 世界 〈 标准 输出 ) 的 流 。 

















指定 文件 名 从 文件 读 取 数 据 的 代码 如 下 所 示 。 


fread (path) 


指定 文件 名 将 数据 写 入 文件 的 代码 如 下 所 示 。 


fwrite (path) 


这 两 个 函数 会 分 别 返 回 读 取 用 和 写 入 用 的 流 。 


on 


表达 式 有 常量 、 变 




















、 因 数 调用 、 数 组 表达 式 、map RAA, RARAN, BARAM if 








表达 式 ， 各 表达 式 的 语法 如 表 2-1 所 示 。 对 于 有 一 般 语言 的 编程 经 验 的 读者 来 说 ， 这 些 表 达 式 应 该 





不 是 很 难 。 


表 2-1 Streem 的 表达 式 

































































字符 串 常量 "FHE" 
数值 常量 数值 
量 标识 符 
函数 调用 标识 符 ( 参数 …) 
方法 调用 表达 式 . 标识 符 ( 参数 …) 
数组 表达 式 [ 表达 式 ，.…] 
map 表达 式 RAN RAN 
函数 表达 式 { 变量 ...-> 语句 …} 
运算 表达 式 表达 式 运算 符 表达 式 
if 表达 式 if ( 表达 式 ) { 语句 ...} else { 语句 ...) 


赋值 

















"foobar" 

123 

FooBar 

square (2) 

ary.push(2) 

EPer 
[iroot gi y syst gz] 
{x->x+1} 

LEL 

if (true) {0} else {2} 


Streem 的 赋值 有 两 种 写法 。 一 种 与 一 般 语言 相 同 ， 使 用 等 号 赋值 。 


ONE SZ E 
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男 一 种 是 使 用 “=>” 进 行 反 向 赋值 。 上 面 用 等 号 赋值 的 代码 如 果 用 “=>” 重 写 ， 则 如 下 所 示 。 





au 























1 2» ONE 


在 把 管道 的 运行 结果 保存 到 变量 时 ， 第 二 种 写法 延续 了 流 的 处 理 ， 非 常 便捷 。 
无 论 是 哪 种 形式 的 赋值 ， 为 了 避免 状态 变化 ， 都 需要 遵守 下 列 规则 。 












































e 规则 1: 不 能 对 同一 个 变量 多 次 赋值 ， 在 作用 域 中 只 能 对 一 个 变量 赋值 一 次 
e 规则 2: 仅 在 交互 执行 环境 的 项 层 作 用 域 (top level) 下 人 允许 对 一 个 变量 进行 重复 赋值 ， 这 
可 以 看 作 是 对 变量 名 相同 的 不 同 变量 进行 的 赋值 
























































多 条 语句 


Streem 中 可 以 有 多 条 语句 前 后 排列 ， 语 名 与 语句 之 间 通 过 分 号 “; ”或 换行 进行 分 隔 。 可 以 认 
为 有 多 条 语句 时 会 按照 先后 顺序 执行 。 如 果 它 们 之 间 没 有 依赖 关系 ,那么 在 实际 执行 时 就 可 能 会 被 
并 行 执行 。 









































Lr 
Streem 程序 的 例子 seq(100) | map(x-» 
可 if (x$15--0) 

接 下 来 我 们 看 几 个 Streem 程序 的 例子 。 "FizzBuzz" 

刚才 我 们 实现 了 cat ， 现 在 来 看 一 个 稍微 有 些 不 同 的 例子 ， else if (x$3--0) 
使 用 Streem 编写 经 常 作 为 例题 出 现 的 FizzBuzz 游戏 (图 2-10 )。 id 
这 个 游戏 的 规则 是 : 参加 者 从 1 开始 报 数 ， 数 字 能 被 3 整除 时 回 m 0 QM 
Z “Fizz”, PEUX 5 整除 时 回答 “Buzz”， 既 能 被 3 也 能 被 5 整除 d 
时 回答 “FizzBuzz”。 x 











使 用 seq 函数 可 以 创建 从 1 开始 到 指定 数字 为 止 的 数列 。 ) | stdout 
把 指定 函数 传 给 管道 ， 函 数 就 会 作用 于 数列 中 的 各 个 元 素 ， 其 
操作 结果 会 传递 给 下 一 个 管道 。stdout 把 接收 到 的 数字 ( 的 数 2-10 用 Streem 编写 FizzBuzz 
列 ) 打印 出 来 。 
这 么 一 看 ， 大 家 是 否 觉得 用 Streem 编写 的 管道 代码 非常 直接 明了 呢 ? 
























































mn 


Streem 可 以 轻易 地 编写 出 图 2-10 那样 的 对 值 的 序列 进行 加 工 之 后 再 输出 的 程序 ， 但 程序 也 不 
都 是 这 种 一 对 一 的 关系 ， 也 有 像 grep (单词 搜索 ) 这 种 搜索 符合 条 件 的 文字 的 类 型 ， 还 有 像 wc 
(单词 计数 ) 这 种 进行 统计 的 类 型 。 
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Streem 中 有 几 个 关键 字 会 在 这 些 场景 中 使 





Jo 





emit 用 于 运行 一 次 返回 多 个 值 的 场景 。 传 给 emit 多 个 值 就 会 返回 多 个 值 ， 所 以 下 镍 


码 表达 的 是 同一 个 含义 。 


emit 1, 2 


emit 1; emit 2 





两 行 代 

















另外 ， 在 数组 前 加 上 “*” 时 ，emit 会 一 次 返回 所 有 数组 元 素 ， 也 就 是 说 ， 


E c 2 emi a 


等 同 于 以 下 代码 。 
emit 3 


emit 1; emit 2; 








图 2-11 是 一 段 使 














# 循环 输出 每 个 值 两 次 
seq(100) 





| map(x-»emit x, x) | stdout 


图 2-11 emit 示例 代码 


return 会 结束 函数 运行 并 返回 值 。return 可 以 返 
emit。 另 外 ， 在 函数 正文 只 
返回 值 。 








到 的 值 更 少 的 值 。skip 
这 段 代 码 会 从 1 到 100 的 数字 中 过 滤 掉 偶数 。 








] emit 的 示例 代码 ， 这 个 程序 会 把 从 1 到 100 的 数字 各 输出 两 次 。 





一 个 表达 式 的 情况 下 ， 即 使 


回 多 个 值 ， 在 这 种 情况 下 会 对 多 个 值 进 行 
没有 return， 这 个 表达 式 的 值 也 会 成 为 


使 用 emit 和 return 可 以 生成 比 接收 到 的 值 更 多 的 值 。 反 之 , 使 用 skip 则 可 以 生成 比 接收 
会 结束 本 次 循环 ， 不 会 输出 值 。 图 2-12 是 一 段 使 用 了 skip 的 示例 代码 ， 


seq(100) | map(x -» if (x $ 2 == 0) (skip); x) | stdout 


图 2-12. skip 的 示例 代码 
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不 可 变 





前 面 已 经 介绍 过 ， 为 了 避免 竞争 ，Streem 中 所 有 的 数据 结构 都 是 不 可 变 的 ， 数 组 与 映射 ( 相当 
T Ruby 的 散 列 ) 也 是 不 可 变 的 。 增 加 元 素 时 ， 不 是 去 改变 现 有 的 数据 ， 而 是 在 原 有 数据 的 基础 上 
增加 元 素 ， 产 生 新 的 数据 ( 图 2-13 )。 








w 
Il 


[1,2,3,4] # a 是 包含 4 个 元 素 的 数组 
b = a.push(5) 4 b 是 在 a 的 末尾 增加 5 的 数组 
4 XH EL 




















2-13. 不 可 变数 据 的 更 新 


普通 的 面向 对 象 编程 都 是 允许 属性 ( 实例 变量 等 ) 变化 的 ， 而 Streem 不 允许 这 么 做 ， 使 用 时 
需要 注意 。 这 一 点 可 以 说 与 函数 式 编程 语言 很 像 。 





























单词 计数 


接 下 来 我 们 试 着 用 Streem 写 一 下 经 常 在 MapReduce 计算 模型 的 例子 中 出 现 的 单词 计数 程序 
(图 2-14 )。 


























stdin | flatmap{s-> 
SS 

) | map{x->[x, 11) | reduce by key( 
K, X,Y -> Xty 

) | stdout 


图 2-14 使 用 Streem 编写 的 单词 计数 程序 示例 


首先 来 介绍 一 下 图 2-14 的 程序 中 首次 出 现 的 语法 。 调 用 £latmap 清 数 的 地 方 有 一 段 像 Ruby 
代码 块 一 样 的 代码 。Streem 有 一 种 语法 糖 一 一 当 函 数 附 加 在 参数 列表 之 后 时 ， 艺 数 会 作为 最 后 的 参 
数 追 加 到 参数 列表 中 。 也 就 是 说 ， 下 面 第 一 段 代码 是 第 二 段 代码 的 男 一 种 形式 。 
































flatmap(s-»s.split(" ")] 


flatmap((s-»s.split(" ")) 











这 么 做 是 为 了 让 普通 的 函数 调用 结构 可 以 像 Ruby 代码 块 一 样 美观 。 
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我 们 来 看 看 图 2-14 的 代码 做 了 什么 。 首 先 从 stdin 逐 行 接收 数据 ， 通 过 split 将 数据 分 割 
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为 单词 ， 然 后 通过 flatmap 把 单词 展开 为 流 。 之 后 通过 map 函数 转换 为 [ 单词 ， 1] 这 样 的 数组 形 


式 ， 通 过 reduce by key 创建 单词 与 单词 出 现 次 数 的 映射 。reduce_by_key 接 收 [ 键 ， 值 ] 
这 样 的 2 个 元 素 的 数组 流 ， 然 后 返回 按 各 个 键 分 组 之 后 的 流 。 当 已 经 出 现 过 的 键 再 次 出 现在 流 



































时 ， 作 为 参数 传递 的 函数 会 通过 3 个 参数 ( 键 ， 旧 值 ， 新 值 ) 被 调用 ,而且 函数 的 返回 值 是 与 
键 对 应 的 新 值 。 本 例 中 [单词 ， 1] 这 样 的 流 在 经 过 reduce_by_key 的 处 理 后 ， 最 终 会 得 到 
[ 单词 ， 出 现 次 数 ] 这 样 的 流 。 














最 后 通过 管道 把 这 个 映射 与 stdout 连接 起 来 ，stdout 就 会 打印 出 键 与 值 的 组 合 ， 这 样 就 能 





EAE 





i 上 看 到 单词 与 它 的 出 现 次 数 。 这 次 没有 做 其 他 处 理 , 需 要 的 话 ， 也 可 以 在 打印 之 前 添加 对 单 








词 的 显示 顺序 进行 排序 的 管道 。 


套 接 字 编 程 





UNIX 中 以 流 为 基础 设计 的 套 接 字 (socket) 当然 也 可 以 


在 Streem 中 使 用 。 图 2-15 是 使 用 套 接 字 开发 的 最 简单 。”# 打开 8007 消 口 提供 服务 
的 网 络 服务 一 Echo 服务 ( 原封 不 动 地 返回 收 到 的 消息 ) 的 


程序 。 



































tcp server(8007) | {s-> 
s|s 


) 


真 简单 。Streem 可 以 轻松 编写 出 与 流 模 型 相 匹配 的 程序 。 
我 们 先 来 看 一 下 这 个 程序 。tcp_server ZGIJHHE E 2-15 ”Echo 服务 


端口 的 服务 器 套 接 字 ， 等 待 客户 端 连接 。Streem 的 服务 器 套 




















接 字 是 客户 端 套 接 字 的 流 。 





客户 端 套 接 字 是 来 自 客户 端的 输入 输出 的 流 ， 所 以 下 面 这 行 代码 的 作用 就 是 原封 不 动 地 返 





[s] 





收 





到 的 消息 。 


s | 


S 





如 果 你 想 对 收 到 的 消息 进行 一 些 加 工 ， 可 以 在 管道 中 间 插 入 加 工 数据 的 流 。 








配 管 工作 


正如 我 们 前 面 看 到 的 一 样 ， 管 道 的 结构 如 下 所 示 。 








do^X 1| me^5-X2... | mX*n 








“表达 式 1” 是 产生 值 的 流 ( 这 里 称 为 生产 者 ) “表达 式 2” 的 后 面 是 对 值 进行 转换 及 加 工 的 流 
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(过 滤器 )， 最 后 的 “表达 式 n” 是 输出 流 ( 消费 者 )。 

生产 者 中 既 有 像 stain 那样 将 外 部 输入 作为 流 读 取 的 类 型 ， 也 有 像 seq 那样 通过 计算 来 产 
生 值 的 类 型 。 一 旦 在 生产 者 的 位 置 上 放置 函数 表达 式 ， 生 产 者 就 会 调用 这 个 函数 ， 生 成 return 或 
emit 返回 的 值 。 

过 滤器 在 大 多 数 情 况 下 是 函数 ， 它 会 把 接收 到 的 值 作为 参数 进行 调用 ， PHE return ię emit 
返回 的 值 传递 给 后 面 的 流 。 

最 后 的 消费 者 是 只 负责 接收 值 而 不 对 值 进行 emit 的 流 。 

Streem 的 基础 程序 都 会 准备 这 种 连接 各 个 流 的 管道 ， 通 过 流转 来 自生 产 者 的 值 ， 从 而 对 值 进行 
加 工 ， 我 们 可 以 将 这 一 系列 处 理 形象 地 称 为 配 管 工 作 。 虽 然 这 种 计算 模型 不 是 无 所 不 能 的 ， 但 优点 
是 能 够 编写 出 抽象 度 高 且 易 于 理解 的 并 发 程序 。 有 时 放弃 一 些 功能 反而 能 够 使 产品 更 容易 理解 ， 该 
模型 就 是 一 个 典型 例子 。 

不 过 并 非 所 有 的 程序 都 能 够 只 用 一 条 数据 流 来 解决 问题 。 对 于 那些 不 能 用 一 条 数据 流 解决 问题 
的 程序 ， 如 果 将 其 全 部 放弃 ,未免 过 于 激进 ， 在 这 种 情况 下 就 需要 更 复杂 一 些 的 管道 。 具体 来 说 ， 
可 以 增加 两 个 功能 : 把 多 个 流 整合 为 一 个 (合并 ) 的 功能 ， 以 及 把 一 个 流 分 割 成 多 个 来 同时 发 送 数 
据 (广播 ) 的 功能 。 

如 果 可 以 设置 流 与 流 之 间 的 缓冲 区 大 小 ， 那 当然 是 再 好 不 过 的 了 。 
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管道 的 合并 


在 之 前 的 例子 中 数据 流 都 具有 一 条 ,非常 简单 ， 这 一 点 很 好 ， 但 并 不 能 解决 所 有 的 问题 。 
有 时 还 需要 把 多 条 管道 合并 为 一 条 ， 或 者 把 一 条 管道 分 拆 为 多 条 。 管 道 合并 时 使 用 “&” 符 号 。 
































管道 1 & 管道 2 


这 样 就 可 以 将 来 自 “管道 1” 的 值 与 来 自 “ 管 道 2” 的 值 整合 到 一 个 数组 中 ， 产 生 新 的 管道 。 
合并 的 管道 中 任意 一 个 管道 结束 处 理 时 ， 整 个 新 管道 就 会 随 之 结束 。 例 如 在 之 前 的 cat 的 例子 的 
基础 上 增加 行 号 显示 (相当 于 cat -n )， 代 码 如 图 2-16 所 示 。 























seq() & stdin | stdout 


图 2-16 cat-n 的 实现 示例 


运算 符 “&” 的 优先 级 高 于 “|”， 所 以 


a&b|c 
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(a &b) | c 








如 果 省 略 了 seq () 函数 的 参数 ， 就 会 从 1 开始 无 限 循环 。stain 从 标准 输入 逐 行 读 取 数据 并 
写 入 到 管道 ， 所 以 合并 后 会 形成 以 下 数组 。 

















er 














把 这 个 数组 写 入 stdout, cat 就 附带 行 号 了 。 要 想 让 程序 更 加 实用 ， 还 需要 进行 行 号 对 齐 等 
格式 方面 的 工作 ， 只 要 在 stdout 之 前 放置 格式 化 的 管道 即 可 "。 

















通道 缓冲 

















末尾 不 是 消费 者 的 管道 会 返回 “通道 ”( channel ) 这 个 对 象 。 下 面 这 行 代码 中 的 sequence 就 
是 通道 ， 表 示 合 并 了 segl) 产生 的 数组 与 stdin 的 输入 这 两 者 的 流 。 





seq() & stdin -> sequence 


我 们 可 以 认为 管道 是 用 通道 将 进行 流 处 理 的 “任务 ”连接 起 来 而 形成 的 。 

当然 ， 各 个 流 的 数据 处 理 速度 不 尽 相 同 。 如 果 前 段 处 理 产 生 数 据 的 速度 过 快 ， 数 据 就 会 积压 在 
通道 里 ， 耗 费 大量 内 存 。 相 反 ， 如 果 通 道中 完全 不 缓冲 数据 ， 前 段 处 理 的 等 待 时 间 就 会 变 长 Sek 
效率 低下 。 

于 是 我 们 让 通道 只 缓冲 适量 的 数据 。 不 过 真正 合适 的 缓冲 区 大 小 是 由 程序 决定 的 ， 我 们 无 法 完 
全 推测 出 来 。 有 时 为 了 提升 性 能 ， 需 要 明确 指定 缓冲 区 的 大 小 ， 这 时 就 需要 用 到 chan () 函数 。 

chan () 函数 会 显 式 地 生成 通道 对 象 。 如 果 管 道 运算 符 “| ”的 右 侧 是 通道 对 象 ， 就 让 该 通 
道成 为 流 输出 的 目的 地 。 另 外 ， 把 整数 作为 参数 传 给 chan CO) 函数 时 ， 该 整数 就 是 缓冲 区 的 大 小 。 
图 2-17 在 图 2-16 代码 的 基础 上 显 式 地 指定 了 缓冲 区 的 大 小 为 3。 

























































































seq() & stdin | chan(3) | stdout 


E] 2-17 指定 了 缓冲 区 大 小 的 cat-n 


如 果 缓 冲 区 的 大 小 为 0， 管 道 就 会 以 前 后 交替 的 形式 运行 ,产生 一 条 数据 后 就 要 等 到 它 被 消费 
为 止 。 在 单 核 环境 中 这 种 方式 或 许 会 很 方便 。 














(D Streem 还 在 设计 之 中 ， 格 式 化 的 相关 细节 尚未 确定 。 
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广播 


比如 在 开发 一 个 聊天 服务 时 ， 需 要 把 一 个 人 发 出 的 消息 发 送 给 全 部 参与 者 ， 在 这 种 情况 下 也 可 
以 使 用 通道 。 如 果 将 chan () 函数 生成 的 通道 与 多 个 流连 接 ， 那 么 向 通道 输入 的 值 就 会 被 广播 到 连 
接 的 所 有 流 中 。 

图 2-18 是 把 图 2-15 的 Echo 服务 改造 为 向 全 部 参与 者 发 送 消息 的 Chat 服务 时 的 代码 。 




















broadcast - chan() 
# 打开 8008 端 口 提供 服务 
tcp server(8008) | {s-> 
broadcast | s  # 回复 所 有 参与 者 的 消息 
S | broadcast 4 将 消息 发 送 给 所 有 参与 者 
} 


















































图 2-18 Chat 服务 

也 许 有 人 已 经 注意 到 了 ,广播 通道 是 有 状态 的 。 这 就 意味 着 连接 broadcast 的 流 会 作为 目的 
地 记录 在 broadcast 中 。 另 外 ， 当 发 送 目的 地 的 流 关闭 ， 或 者 显 式 地 用 disconnect 方法 断 开 
连接 时 ， 就 需要 把 这 个 流 从 发 送 目的 地 的 列表 中 去 除 。 虽 然 Streem 中 要 求 对 象 不 可 变 ， 但 是 为 了 
使 程序 更 易于 理解 ， 有 时 也 需要 做 出 一 些 妥协 。 当 然 ， broadcast 内 部 对 状态 变化 做 了 并 发 控制 ， 
所 以 在 并 行 运行 时 也 不 会 出 现 问题 。 

















小 结 


AKTE f Streem 这 个 以 管道 为 计算 模型 核心 的 语言 。 如 果 程 序 非常 适合 使 用 流 处 理 ， 
那么 编写 起 来 会 简单 到 让 人 吃惊。 

其 实 Streem 语言 的 设计 才刚 刚 起 步 ， 在 达到 实用 程度 之 前 还 有 很 多 事情 需要 考虑 ， 比 如 如 何 
进行 异常 处 理 、 如 何 准备 用 户 自 定义 的 流 、 如 何 定义 “对 象 ”等 。 随 着 软件 规模 的 扩大 ， 在 语言 
需要 考虑 的 东西 也 会 不 断 增多 。 

语言 设计 者 常用 的 一 个 “借口 ”就 是 没有 人 会 用 这 个 语言 去 编写 大 规模 的 程序 。 除 非 这 个 语言 
不 能 用 ， 否 则 这 个 借口 是 站 不 住 脚 的 。 

2-3 市 将 继续 深入 探讨 Streem 的 设计 ， 同 时 也 思考 一 下 如 何 去 实 现 这 门 语言 。 
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时 光 机 专栏 
语言 名 和 语法 都 和 预想 的 不 同 






































本 节 是 2015 年 1 月 刊 中 刊登 的 内 容 ， 我 终于 进入 到 了 本 书 的 重点 部 分 一 一 Streem 语言 的 
开发 。 连 载 时 使 用 的 名 字 是 Stream， 但 这 个 名 字 容 易 招 致 混乱 ， 因 此 在 成 书 时 修改 了 语言 名 。 
语法 跟 之 前 也 略 有 不 同 。 具 体 的 变化 有 右 侧 赋 值 符号 由 “->” 变 为 了 “=>”， 以 及 函数 
表达 式 的 参数 部 分 由 “{ |x,y|x+y}” 变 为 了 “{x,y->x+y} ”。 男 外 ， 表 示 标 准 输 入 输出 的 
stdin, stdout 的 名 字 也 由 大 写 变 为 了 小 写 。 我 觉得 不 做 任何 修改 直接 给 大 家 看 连载 时 的 内 
容 倒 也 不 失 为 一 件 乐 事 ， 但 纠结 了 很 长 一 段 时 间 后 ， 还 是 觉得 当时 的 内 容 除了 当 历史 资料 以 外 
没有 太 大 用 处 ， 于 是 最 终 还 是 决定 进行 修改 。 
我 在 写 这 篇 稿子 的 时 候 ， 语 言 处 理 器 还 完全 没 做 好 ， 所 以 本 节 的 内 容 在 当时 只 不 过 是 还 未 
实现 的 构想 罢了 。 但 为 了 避免 语法 前 后 矛盾 、 不 能 实现 等 ， 我 写 了 最 基本 的 yacc 代码 。 当 初 
是 将 它 作为 备份 上 传 到 了 GitHub 上 ， 没 想到 却 成 了 Hacker News 等 海外 新 闻 网 站 的 热门 话 
题 ， 这 对 我 来 说 也 是 一 个 美好 的 回忆 。 




































































































































































































































































































































































最 后 点 需要 注意 ， 在 本 节 介 绍 的 构想 中 ， 些 功 能 在 本 书 出 版 时 还 没有 实现 ， 比 如 
在 Chat 服务 中 使 用 的 chan () 等 。 我 会 在 以 后 去 逐个 实现 这 些 功 能 ， 但 是 现在 我 无 法 保证 什 
么 时 候 能 完成 。 


-2 首先 开发 语法 检查 器 


本 节 将 开始 实现 2-2 节 中 设计 的 以 流 为 基础 的 语言 。 在 验证 完 流 模型 的 可 行 性 之 后 ， 我 























们 会 先 开 发 一 个 语法 检查 器 来 验证 语法 的 可 行 性 。 终 于 要 开始 实现 了 ， 真 是 让 人 兴奋 | 

















2-2 节 介 绍 了 使 用 基于 流 的 计算 模型 的 并 行 编程 的 语法 。 对 于 一 般 的 并 发 处 理 来 说 ， 这 些 就 已 
经 足够 了 。 下 面 我 们 先 来 研究 一 下 这 些 语法 的 可 行 性 。 









































任务 构成 模式 
在 基于 消息 的 并 发 处 理 中 ,任务 (或 者 线程 和 进程 ) 的 构成 存在 某 种 模式 ， 以 下 是 几 种 典型 的 
模式 。 





e 生产 者 - 消费 者 模式 
e 轮 询 调度 模式 

e 广播 模式 

e 汇总 模式 

e 请 求 -应 答 模式 
































接 下 来 我 们 就 来 看 一 下 这 些 模式 到 底 是 什么 样 的 ， 以 及 是 如 何 应 用 在 流 模型 中 的 。 
生产 者 - 消费 者 模式 


生产 者 - 消费 者 模式 是 通过 消息 进行 并 发 处 理 的 基本 生产 者 


模式 ， 由 生产 者 生成 数据 ， 再 传递 给 消费 者 ( 图 2.19 )。 最 eee: 
典型 的 例子 就 是 shell 的 管道 ， 不 过 这 种 模式 在 其 他 场景 中 “图 2 .19 生产 者 -消费 者 模式 
也 可 以 使 用 。 

在 流 模型 中 ， 以 生产 者 和 消费 者 之 间 用 流连 接 的 形式 编写 代码 。 假 定 为 生产 者 ，c 为 消费 
者 ， 用 Streem 语言 编写 出 来 的 代码 就 是 下 面 这 种 形式 。 








E 











ee 
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作为 从 生产 者 - 消费 考 模式 自然 扩展 的 一 种 形式 ， 有 时 c 会 对 收 到 的 数据 进行 加 工 而 成 为 生产 
者 ， 并 向 下 一 个 消费 者 发 送 数 据 。 在 这 种 情况 下 ， 由 于 C 对 数据 进行 了 加 工 ， 所 以 在 Streem 中 就 
称 为 过 滤器 。 管 道 的 代码 如 下 所 示 ， 当 然 也 可 以 连接 多 个 过 滤器 。 





D| p e 
轮 询 调度 模式 





为 了 最 大 限度 地 利用 多 核 ， 对 生产 者 - 消费 者 模式 进 
行 变 形 ， 准 备 多 个 消费 者 ， 让 它们 分 担 数 据 处 理工 作 ， 这 种 生产 者 
轮流 处 理 的 模式 就 称 为 轮 询 调度 (round robin ) ( 图 2-20 )。 

轮 询 调度 的 目的 是 分 散 压 力 ， 所 以 一 般 会 准备 多 个 进 
行 相同 处 理 的 任务 ， 让 它们 轮流 进行 数据 处 理 。 需 要 注意 ”图 2-20 轮 询 调度 模式 





的 是 ， 如 果 在 什么 都 不 考虑 的 情况 下 让 这 些 任务 轮流 进行 数据 人 处理， 就 会 出 现 前 曾 





























i 的 数据 处 理 一 直 








不 结束 ， 后 面 的 数据 处 理 被 迫 等 待 的 情况 。 虽 说 是 轮流 处 理 ， 但 并 不 是 将 数据 处 理 轮流 分 配给 所 有 








的 任务 ， 而 是 轮流 分 配给 空闲 的 任务 。 在 这 方 孙 








i 我 们 还 需要 多 费 一 些 心思 。 











(多 线程 ) Web 服务 器 就 是 一 个 轮 询 调度 的 例子 。 将 客户 端 发 来 的 请 求 分 配给 工作 线程 正 是 轮 


询 调 度 的 做 法 。 





Streem 的 语言 处 理 屁 内 置 了 支持 轮 询 调 度 的 结构 。 也 就 是 说 ， 如 果 按 照 普 通 的 生产 者 - 消费 者 
模式 去 编写 代码 ，Streem 就 会 自动 创建 多 个 任务 进行 处 理 。 具 体 来 说 ， 只 要 准备 好 如 下 所 示 的 流 ， 
Streem 就 会 根据 CPU 的 内 核 数 来 创建 同等 数量 的 消费 者 进行 处 理 。 在 内 核 数 量 增加 时 ， 即 使 不 修 











改 任何 代码 ， 也 能 在 性 能 上 得 到 提升 。 





Bl 


广播 模式 





将 同一 条 消息 分 配给 多 个 任务 进行 处 理 的 情形 称 为 广 


播 模 式 (图 2-21 )。 


广播 模式 的 例子 有 聊天 服务 ， 其 中 一 位 成 员 的 发 言 会 tr 








被 发 送 给 聊天 室 里 的 所 有 成 员 。 


Streem 中 编写 广播 模式 的 方法 是 把 多 个 流连 接 到 一 个 
流 。 假 定 P 为 生产 者 ，cl 到 cn 为 消费 者 ， 将 消息 发 送 给 “图 2-21 广播 模式 


所 有 成 员 的 代码 如 下 所 示 。 
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B | es 
pP | e2 
D Ea 


当 所 有 消费 者 都 保存 在 数组 ary 中 时 ， 代 码 如 下 所 示 。 


ary.map(c -» P | c) 














汇总 模式 
生产 者 
与 一 个 生产 者 发 送 消息 给 多 个 消费 者 的 广播 模式 相反 ， 汇 
总 模式 是 多 个 生产 者 把 消息 发 送 给 一 个 消费 者 ( 图 2-22). ap 
汇总 模式 的 一 个 典型 例子 是 日 志 收集 , 将 各 个 地 方 产生 的 日 mum 





志 汇 总 到 一 个 地 方 保存 。 
Streem 中 汇总 模式 的 实现 与 广播 模式 正好 相反 。 假 定 
Pi 到 Pn 为 生产 者 ，C 为 消费 者 ， 代 码 如 下 所 示 。 


2-22 汇总 模式 














P1 € 
P2 € 
Pn E 


当 所 有 的 生产 者 都 保存 在 数组 ary 中 时 ， 代 码 如 下 所 示 。 


ary.map{|p| p | C] 


请 求 - 应 答 模式 


请 求 - 应 答 模式 简单 来 说 就 是 发 送 消息 给 一 个 任务 ， 

让 这 个 任务 把 处 理 完毕 的 数据 作为 消息 返回 (图 2-23 ), Esi 1. | f2 
老实 说 ， 我 并 不 推荐 在 并 发 编程 中 经 常 使 用 请 求 -应 

答 模式 。 与 其 发 送 消息 等 待 应 答 ， 还 不 如 在 同一 个 任务 中 进 

行 处 理 更 为 高 效 ， 因 为 后 者 没有 发 送 消息 的 开销 。 而 要 避免 等 待 ， 就 需要 让 发 送 请 求 和 接收 应 答 异 

步 ， 这 样 就 会 使 代码 变 得 更 加 复杂 ， 更 加 不 易于 理解 。 








+ 
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因此 ，Streem 不 支持 请 求 - 应 答 模式 。 这 里 推荐 大 家 使 用 同步 调用 普通 函数 的 方法 来 实现 。 


m 开发 编程 语言 的 第 一 步 

















看 起 来 Streem 语言 背后 的 流 模型 


很 兴奋 呀 ? 


ini 


























具备 充分 的 可 行 性 ， 那 么 我 们 就 开始 实现 这 门 语言 吧 。 是 不 


大 家 在 开发 自己 的 语言 时 ， 首 先 会 从 哪里 开始 呢 ? 
当然 没 人 规定 必须 从 哪里 开始 开发 。 我 记得 在 二 十 多 年 前 开发 Ruby 时 ， 是 从 检查 语法 是 否 正 




















确 的 语法 检查 需 开 始 的 ， 而 在 2010 4 


从 反复 试验 的 地 方 开始 开发 





EJ 





FA mruby 时 ， 则 是 从 虚拟 机 开始 的 。 

















这 么 做 是 有 原因 的 。 在 开始 开发 Ruby 时 ， 我 还 没 想 好 用 什么 样 的 语法 。 作 为 编程 语言 迷 ， 我 
在 语言 设计 上 最 看 重 的 就 是 语法 。 为 了 把 语法 确定 下 来 ， 我 进行 了 反复 试验 ， 并 将 这 一 工作 作为 优 
先 事项 。 实 际 上 ， 早 期 的 Ruby 语法 与 现在 有 着 很 大 的 差异 ，Ruby 语法 是 经 过 反复 试验 才 成 长 为 现 
在 这 个 样子 的 。 这 是 从 语法 分 析 器 开始 开发 官方 CRuby 的 最 大 原因 。 






































而 mruby 一 开始 就 定 下 来 语法 要 与 现 有 的 Ruby 保持 兼容 ， 所 以 在 语法 上 没有 什么 反复 试验 的 
余地 ， 于 是 我 就 把 着 眼 点 放 在 了 内 存 使 用 量 少 、 运 行 效率 高 的 虚拟 机 的 开发 上 。 因 此 ，mruby 的 开 
发 是 从 对 虚拟 机 的 结构 和 指令 集 进 行 各 种 尝试 开始 的 。 最 开始 的 时 候 是 手 敲 字 节 码 ( 虚拟 机 的 命令 
序列 )， 然 后 直接 用 在 虚拟 机 上 。 在 虚拟 机 可 以 在 某 种 程度 上 运行 起 来 之 后 ， 我 又 基于 从 CRuby 复 
































制 过 来 的 语法 定义 开发 了 语法 分 析 部 分 和 代码 生成 部 分 。 











总 之 ， 秘 诀 就 是 先 开发 最 需要 进行 反复 试验 的 部 分 。 为 了 进行 反复 试验 ， 就 需要 在 早期 采取 一 
些 行动 。 在 开发 CRuby 时 ， 我 首先 开发 了 检查 Ruby 程序 的 语法 是 否 正确 的 语法 检查 器 来 进行 反复 











试验 。 而 在 开发 mruby 时 ， 则 首先 开发 了 运行 手套 的 示例 代码 的 字 节 码 (一 个 计算 阶乘 的 程序 ) 的 


虚拟 机 。 


Streem 语言 也 从 语法 检查 器 开始 开发 





那么 Streem 语言 要 从 哪里 开始 玫 





Ff 发 呢 ? 


实现 Streem 时 有 很 多 需要 反复 试验 的 地 方 。Streem 这 门 新 的 语言 有 新 的 语法 ， 所 以 我 还 是 很 
在 意 语 法 质量 的 。 另 外 ，Streem 的 精髓 在 于 支持 多 核 环境 下 抽象 度 高 的 并 发 编程 ， 因 此 负责 这 部 分 
的 任务 调度 需 的 开发 难度 也 比较 高 ， 预 计 需 要 反复 试验 。 























再 三 考虑 之 后 ， 我 决定 和 CRuby 一 样 从 语法 检查 器 的 实现 开始 。 





虽说 如 此 ， 但 与 开发 CRuby 的 时 候 不 同 ， 现 在 的 我 已 经 熟悉 yace 的 用 法 了 ， 所 以 开发 起 来 应 


该 比 以 前 更 加 顺畅 。 


首先 是 创建 项 目 。 这 里 我 采 
登录 到 GitHub ， 创 建 一 个 空 的 软件 仓库 ， 名 为 “matz/streem ”。 

















j 现 在 比较 流行 的 一 种 做 法 
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使 用 GitHub 进行 代码 管理 。 首 先 





将 这 个 新 创建 的 软件 仓库 复制 到 本 地 环境 ( 图 2-24 )。 这 里 需要 先 准 备 一 个 README 文件 来 





开发 就 从 这 里 开始 。 


$ git clone gitGgithub.com:matz/streem.git © 


回 在 这 个 标记 处 换行 


图 2-24 M Github 获取 软件 仓库 











展示 这 是 一 个 什么 项 目 。GitHub 中 推荐 使 用 Markdown 格式 ， 所 以 我 们 就 新 建 一 个 使 用 .md 扩展 名 
的 README.md 文件 (图 2-25 )。 





# Streem - stream based concurrent scripting language 


Streem is a concurrent scripting language based on programming model 


Similar to shell, with influence from Ruby, 





functional programming languages. 


In Streem, simple ‘cat program is like this: 


stdin | stdout 


# Note 


Streem is still under design stage. 


# License 


Streem is distributed under MIT license. 


(erster ate e NA IR 
图 2-25 README.md 


软件 构成 


目前 Streem 语言 处 到 


标准 输入 词法 分 析 器 语法 分 析 器 ERE H 


图 2-26 Streem 语言 处 理 


Yukihiro Matsumoto 





Egg CRANAR Ar) 的 构成 如 








Lc 





器 的 软件 构成 


Erlang and other 


It's not working yet. Stay tuned. 


图 2-26 所 示 。 
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首先 将 词法 分 析 器 读 入 的 程序 转换 为 被 称 为 “单词 ”的 记号 序列 。 单 词 是 指 由 关键 字 、 数 值 、 

符 串 和 运算 符 等 多 个 字符 串 组 成 的 有 意义 的 块 。 

语法 分 析 器 对 单词 序列 进行 解析 ， 检 查 表述 是 否 符合 语法 (不 符合 的 话 就 报错 )， 语 法 正确 的 
话 就 执行 符合 语法 含义 的 动作 。 目 前 Streem 还 只 有 语法 检查 带 ， 将 来 肯定 还 要 构建 程序 结构 以 实 
现 运 行 ， 预 计 还 要 生成 语法 树 和 字 节 码 ， 并 把 这 些 信息 发 送 给 运行 部 分 ( 虚拟 机 等 ) 去 实际 运行 。 

接 下 来 我 们 看 一 下 词法 分 析 器 和 语法 分 析 咒 的 开发 。 














词法 分 析 器 的 开发 


词法 分 析 器 有 多 种 实现 方法 ， 这 次 我 们 使 用 yace 的 搭档 ， 即 词法 分 析 器 的 自动 生成 工具 lex 
(正确 来 说 是 GNU 扩展 版 的 Flex )。Ruby 的 词法 分 析 器 是 自己 开发 的 ， 但 是 我 经 过 各 种 研究 发 现 ， 
lex 也 可 以 在 很 大 程度 上 实现 词法 分 析 器 。 如 果 能 用 工具 的 话 还 是 使 用 工具 更 让 人 放心 。 如 果 有 一 
天 Streem 在 功能 或 者 性 能 上 出 现 了 问题 ， 也 许 就 会 像 Ruby 那样 换 成 自己 开发 的 词法 分 析 器 ， 不 过 
现在 还 不 需要 担心 这 一 点 。 

准备 好 词法 定义 文件 后 ，lex 会 自动 帮 有 我 们 生成 进行 词法 分 析 的 C 函数 ， 有 具体 来 说 就 是 在 用 
yylex() 调用 时 会 返回 “下 一 个 单词 ”的 函数 。 

后 面 介绍 的 yace 生成 的 语法 分 析 器 在 获取 下 一 个 单词 时 会 调用 yy1lex O 函数 ， 这 实在 是 太 方 
便 了 。 如 果 自 己 编写 词法 分 析 器 ， 就 需要 编写 yylex O 函数 了 。 

































































语法 定义 的 编写 











我 们 先 来 实现 语法 检查 器 。 语 法 分 析 器 有 多 种 实现 方法 ， 像 Streem 这 种 规模 的 语法 ， 用 “ 递 
归 下 降 语法 分 析 法 ”自己 写 一 个 语法 分 析 器 就 足够 了 。 不 过 没 必要 非得 自己 开发 ， 所 以 这 次 我 们 就 
用 yace 来 实现 语法 分 析 器 。 首 先 准备 parse.y 文件 。 

这 个 文件 是 刚才 提 到 的 工具 yace 处 理 用 的 源 代码 。 如 果 要 详细 介绍 yace 的 语法 ， 得 写 一 本 书 
才能 讲 完 ， 所 以 这 里 就 不 详细 介绍 了 。 为 了 方便 大 家 理解 ， 我 来 介绍 一 下 最 基本 的 内 容 。1-2 节 中 
也 介绍 过 这 部 分 内 容 ， 这 里 正好 复习 一 下 。 






































lex 定义 的 语法 








作为 lex 的 输入 的 定义 文件 通常 使 用 扩展 名 “.1”。 图 2-27 是 lex 定义 文件 的 示例 。 
定义 文件 大 体 上 可 以 分 为 以 下 3 个 部 分 ， 各 部 分 用 “ss#” 隔 开 。 








e 声明 部 分 
e 词法 定义 部 分 
e C 语言 部 分 





声明 部 分 声明 lex 中 使 用 的 选项 等 。 
在 声明 部 分 编写 的 以 “%{” 开 始 以 “%}” 
结束 的 代码 会 被 直接 插入 到 生成 的 C 语 
代码 中 。 我 们 可 以 在 这 里 编写 头 文件 
| 用 、 变 量 和 函数 原型 等 声明 。 

词法 定义 部 分 用 于 编写 表示 单词 的 
正则 表达 式 以 及 支持 的 动作 。 

最 后 的 C 语言 部 分 用 于 定义 词法 解 
析 器 中 使 用 的 C 语言 函数 等 。 这 一 部 分 

会 被 直接 插入 到 生成 的 C 语言 代码 中 。 
在 语法 定义 部 分 的 动作 中 使 用 的 函数 等 
多 在 这 里 定义 。 

把 图 2-27 的 文件 〈 假 定 文件 名 为 lex.1 ) 
传 给 lex 命令 进行 处 理 之 后 ， 会 生成 一 个 
名 为 “lex.yy.c” 的 文件 。 实 际 上 这 里 使 
用 的 不 是 原版 的 lgx， 而 是 GNU 扩展 版 
的 lex 一 一 flex。 运 行 步 又 如 图 2-28 所 示 。 








ul} 








«nu 



























































yacc 脚本 的 语法 


词法 分 析 之 后 是 语法 分 析 。yacc 是 
用 于 生成 语法 分 析 器 的 工具 ， 全 称 是 Yet 
Another Compiler Compiler, 

yacc 是 在 20 世纪 70 年 代 开 发 的 用 
于 生成 编译 器 语法 分 析 部 分 的 工具 ， 据 
说 当时 开发 了 很 多 这 种 被 称 为 “编译 器 
的 编译 需 ” 的 工具 。 其 中 ， 后 被 开发 出 
来 的 yacc 取 “ 现 有 工具 的 补充 ”之 意 ， 
命名 为 “yet another”。 但 讽刺 的 是 ， 在 
当时 开发 的 那么 多 编译 器 的 编译 器 中 ， 
现在 只 有 yacc 还 在 被 使 用 。 

说 来 也 怪 ， 似 乎 只 要 用 “yet another" 
命名 就 会 生存 下 来 。Ruby 的 虚拟 机 中 也 
是 只 













































































2-27 


2-28 
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/* 声明 部 分 为 空 */ 
"mn 


now 


return ADD; 
return SUB; 
return MUL; 
recura DIV; 
Peer 


nn 


npa 


UN 


E O (No om) > 
double temp; 


sscanf (yytext, "%1f", &temp); 
yylval.double value - temp; 


return NUM; 


ja 
L wal 


a { 
fprintf (stderr, 
exit(1); 


} 


9. o. 
$7 


/* C 语 言 部 分 也 为 空 */ 


lex 定义 文件 的 示例 


$ flex caler (Q 
$ head lex.yy.c Q 所 只 显示 前 面 10 行 








La 3 "lex.yy.c" 


#define YY INT ALIGNED short int 





/* A lexical scanner generated by flex */ 


ddefine FLEX SCANNER 
#define YY FLEX MAJOR VERSION 2 
#define YY FLEX MINOR VERSION 5 








flex 运行 步骤 


只 有 YARV (Yet Another Ruby VM ) 生存 了 下 来 。 


"lexical error. Nao) 
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作为 yacc 的 输入 的 定义 文件 一 般 使 用 扩展 名 “.y”。 与 lex 相同 ， 定 义 文 件 大 体 上 可 分 为 以 下 
3 个 部 分 ， 各 部 分 用 “ss#” 隔 开 。 





e 声明 部 分 
e 语法 定义 部 分 
e fC 语言 部 分 





声明 部 分 声明 yace 中 使 用 的 单词 、 运 算 符 的 优先 级 和 规则 的 数据 类 型 等 。 另 外 ，C 语言 子 程序 
的 声明 也 可 以 包含 在 内 。 与 lex 相同 ， 声 明 部 分 中 以 “%{” 开 始 以 “%}” 绪 束 的 部 分 会 被 直接 插入 
到 生成 的 C 语言 代码 中 。 我 们 可 以 在 这 里 编写 头 文件 引用 、 变 量 和 函数 原型 等 声明 。 

C 语言 部 分 定义 语法 分 析 器 中 使 用 的 C 语言 函数 等 。 这 一 部 分 也 会 被 直接 插入 到 生成 的 C 语言 
代码 中 。 语 法 定义 部 分 的 动作 中 使 用 的 函数 等 多 在 这 里 定义 。 






































用 巴 科斯 范式 定义 语法 











在 语法 定义 部 分 ， 我 们 可 以 用 类 似 于 巴 科 斯 范式 
(Backus Naur Form, BNF ) 的 规则 来 编写 语法 分 析 器 能 理解 expr : NUM 














































































































的 语法 。 巴 科斯 范式 是 巴 科 斯 (Backus) 和 诺尔 ( Naur ) 在 | EE es 
expr '-' 
定义 Algol 语言 的 语法 时 发 明 的 写法 规则 ( 图 2-29 ), ous 
我 们 来 看 一 下 图 2-29 的 例子 所 表达 的 含义 。 数 学 式 | expr '/' NUM 
Cexpr) 是 以 下 式 子 中 的 一 种 。 ; 
e 值 val : NUM 
e 数学 式 + 1 NUES 
e 数学 式 -1 
e 数学 式 * 人 
图 2-29 巴 科 斯 范式 示例 
e 数学 式 /1 图 科斯 范式 示例 











值 (val ) 是 以 下 式 子 中 的 一 种 。 








e ži 
e (Be 


























该 例子 虽 未 涉及 ,但 巴 科 斯 范式 实际 上 可 以 编写 个 别 规则 所 支持 的 动作 。 动 作 是 用 “1{ }” 括 起 
来 的 C 语言 代码 ， 用 于 编写 匹配 到 规则 时 要 进行 的 处 理 ， 比 如 生成 语法 树 、 生 成 代码 等 。 
根据 图 2-29 定义 的 规则 ， 我 们 来 分 析 一 下 下 面 这 个 程序 。 





























| 


结果 如 图 2-30 所 示 。 

运行 yacc 后 会 生成 一 个 ytab.c 文 
件 。 但 原版 的 yacc 有 诸多 限制 ， 比 如 无 
法 生成 多 个 线程 安全 的 语法 分 析 器 等 ， 
所 以 就 使 用 扩展 版 本 的 GNU bison。 

我 们 只 需 运 行 如 下 命令 即 可 。 








$ bison parse.y 


实际 上 ， 在 Ubuntu 等 很 多 Linux 发 
行 版 中 ， 即 使 启动 yacc， 实 际 运 行 的 也 


还 是 bison。 





Streem 的 语法 


终于 到 了 Streem 的 语法 定义 环节 了 ， 
日 遗憾 的 是 因 版 面 所 限 ， 不 能 在 本 书 中 
展示 Streem 语法 定义 的 全 部 内 容 。 

想 看 相关 代码 的 读者 请 移 步 GitHub， 
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e 正确 的 语法 
142-4 (3*4) 


-> 数值 -> 值 -> 数学 式 

-> 数值 -> 值 

$ 8 e We. e E m Ou 

-> 数值 -> 值 -> 数学 式 

-> 数值 -> 值 

3 * 4) -> (数学 式 * 值 ) -> (数学 式 ) -> 值 
+2+(3*4) -> 数学 式 + 值 -> 数学 式 


区 


e 错误 的 语法 
I a 


1 -> 数值 -> 值 -> 数学 式 
* -> 无 匹配 规则 ( 错误 ! ) 


图 2-30 巴 科斯 范式 解析 





Streem 的 源 代码 在 github.com/matz/streem 上 。 我 在 本 次 解说 相应 的 地 方 打 了 下 面 这 个 标签 ， 大 家 可 


以 参考 。 


201502 











达 式 ， 也 没有 “Here 文档 ”的 功能 。 








虽然 不 能 对 全 部 代码 进行 说 明 ， 但 我 还 是 来 说 一 下 Streem 的 基本 设计 方针 。 
Streem 是 参考 mruby 的 源 代码 开发 的 ， 
但 与 语法 复杂 的 Ruby 不 同 ，Streem 的 


所 以 处 处 都 能 看 到 mruby 的 影子 。 
语法 被 控制 在 较 小 的 规模 ， 比 如 不 能 在 字符 串 中 幅 入 表 











在 设计 Streem 时 ， 相 较 于 销 研 语法 ， 我 认为 在 保持 简洁 的 同时 探索 流 模 型 的 可 能 性 更 为 重要 。 
至 少 在 现 阶 段 是 这 样 的 。 如 果 将 来 Streem 能 发 展 到 实用 的 程度 ， 那 么 在 这 个 过 程 中 它 的 语法 或 许 

















会 得 到 强化 。 




















下 一 节 我 们 将 继续 开发 Streem 的 语言 处 理 器 。 
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小 结 














为 了 展示 流 模型 在 并 发 编程 中 的 可 行 性 ， 本 节 介 绍 了 如 何 用 流 模 型 编写 各 种 任务 构成 模式 。 
此 外 ， 作 为 开发 编程 语言 的 第 一 步 ， 我 们 开始 了 语法 检查 器 的 开发 。 使 用 yace 和 1lex 工具 可 以 






























































比较 简单 地 开发 编程 语言 。 























下 一 节 我 们 将 思考 语言 运行 的 相关 内 容 。 男 外 ， 在 用 语法 检查 器 进行 测试 的 过 程 中 ， 我 开始 不 





满 于 最 开始 设计 的 Streem 语法 ， 关 于 这 部 分 内 容 ， 我 们 也 会 在 下 一 节 进 行 探讨 。 


时 光 机 专栏 


被 颠覆 的 开源 的 常识 
































本 节 是 2015 年 2 月 刊 中 刊登 的 内 容 。 虽 说 只 讲 了 语法 检查 器 ， 但 我 终于 开始 了 语言 处 理 
器 的 开发 ， 这 让 我 感到 热血 沸腾 。 

在 其 他 章节 中 也 提 到 过 ， 我 将 这 里 开发 的 语法 检查 器 的 源 代码 ( 200 行 左 右 的 parse.y ) 上 
传 到 GitHub 之 后 ， 得 到 了 全 世界 的 关注 ， 星 数 也 超过 了 1000。 不 过 我 之 后 的 开发 进度 较 慢 ， 
也 许 大 部 分 人 都 等 得 不 耐烦 了 。 

我 从 事 自由 软件 开发 工作 已 经 超过 了 25 年 ， 但 这 次 创建 Streem 时 发 生 的 事情 还 是 远 远 超 
过 了 我 的 预期 。 创 建 开源 软件 ， 如 果 公开 时 源 代码 不 能 正常 运行 ， 就 得 不 到 人 们 的 关注 ， 可 如 
果 代码 过 于 复杂 ， 就 会 让 其 他 人 难以 下 手 ， 对 社区 的 发 展 不 利 。 这 是 一 种 很 微妙 的 平衡 。 

可 是 在 Streem 被 公开 时 ， 别 说 正常 运行 了 ， 当 时 只 有 一 个 让 人 难以 想象 出 是 什么 语言 的 
语法 检查 器 ， 但 即便 如 此 ， 它 还 是 得 到 了 很 大 的 关注 。 当 然 这 可 能 都 “归功 于 ”我 是 Ruby 的 
开发 者 ， 但 光 赁 知名 度 就 能 颠覆 开源 的 常识 ， 这 一 点 还 是 让 我 很 惊讶 。 

XT GitHub 的 标签 我 再 补充 几 句 。 标 签 是 按照 杂志 连载 时 的 月 份 来 打 的 。 比 如 ， 本 节 是 
2015 年 2 月 刊 中 刊登 的 内 容 ， 所 以 打 的 标签 就 是 201502。 整 理 成 书 时 没有 对 标签 进行 修改 ， 
所 以 代码 还 是 当时 的 样子 。 如 果 有 读者 通过 标签 去 查看 当时 的 代码 ， 那 么 请 注意 本 书 与 当时 的 
源 代码 有 些许 不 一 致 的 地 方 。 













































































































































































































































































































































































PEE 


本 节 将 继续 Streem 语 言 的 实现 。 海 外 的 新 闻 网 站 也 对 Streem 进 行 了 介绍 ， 老 实说 ， 














这 让 我 这 个 作者 感到 很 意外 。 本 节 将 首先 对 Streem 的 语法 进行 一 些 改良 ， 然 后 开始 
Streem 的 核心 流 运行 的 原型 开发 。 











从 完成 原稿 到 杂志 上 架 销 售 ， 中 间 要 经 过 编辑 、 校 对 和 印刷 等 很 多 工序 。 《日 经 Linux》 在 每 月 
8 SERER, 但 原稿 的 撰写 在 很 早 之 前 就 开始 了 。 大 家 在 《日 经 Linux》 上 读 到 的 文章 ， 都 是 我 
在 杂志 上 架 一 个 月 前 写 的 。 

我 在 写 2-3 节 的 内 容 时 编写 了 Streem 的 语法 检查 器 ， 简 单 地 写 了 一 下 README 之 后 就 和 语法 
检查 器 一 起 上 传 到 了 GitHub 上 。 结 果 被 眼 尖 的 人 看 到 ，Streem 的 相关 消息 就 在 SNS 等 社交 网 络 平 
台 上 不 断 扩 散 开 来 。 这 是 2014 年 底 的 事情 了 ， 那 时 距离 当期 杂志 上 架 还 有 一 个 月 。 

尽管 还 不 能 运行 ， 但 依旧 有 人 在 GitHub 上 发 送 Pull Request 给 我 ， 这 让 我 很 感动 。 

没 想到 一 个 只 能 做 语法 检查 的 原型 ， 竞 能 在 Hacker News 等 网 站 成 为 话题 。 因 为 本 来 是 要 在 1 
月 8 号 上 架 的 2015 年 2 月 刊 的 解说 用 的 代码 ， 所 以 Copyright 写成 了 2015 年 ， 这 一 点 也 被 眼 尖 的 
人 指出 来 了 ， 真 是 让 人 出 乎 意料 ， 看 来 “ 写 Ruby 的 那个 松本 又 开发 新 语言 了 ”这 件 事情 比 我 想象 
的 更 具 话 题 性 。 

我 长 期 参与 开源 活动 ， 一 直 以 来 都 认为 开源 软件 的 流行 离 不 开 社 区 和 可 以 运行 的 代码 ， 但 这 次 
开发 Streem 的 经 历 让 我 有 了 新 的 认识 。 即 使 只 是 原型 ， 即 使 还 不 能 运行 ， 只 要 有 话题 性 ， 只 要 能 
打开 这 个 话题 ， 开 源 软件 就 可 以 活跃 起 来 。 







































































m 动手 实现 核心 部 分 os 
语法 已 经 基本 确定 下 来 了 ， 这 次 我 们 来 研究 一 下 其 他 方面 。 语 法 分 析 器 之 后 应 该 是 代码 生成 和 
虚拟 机 的 实现 ， 但 这 次 我 选择 先 去 开发 Streem 实现 的 核心 流 运 行 的 原型 。 
我 设想 的 Streem 程序 如 下 所 示 。 


























stdin | (x-»x.toupper()) | stdout 


运行 该 程序 ， 就 会 构建 出 一 个 由 以 下 3 个 任务 组 成 的 管道 。 


[pi 





e 从 标准 输入 读 取 1 行 
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。 在 读 取 的 行 中 处 理 函数 
e 将 处 理 结 十 果 写 入 标 2&8; dH 











最 后 运行 管道 处 理 。 
首先 来 开发 构建 和 和 运行 管道 的 C 程序 的 原型 。 





c 








main 的 原型 





C 程序 main 函数 的 原型 如 图 2-31 所 示 。 





int 
main(int argc, char **argv) 


{ 
strm stream *strm stdin = strm readio(0 /* stdin*/); 
strm stream *strm map - strm funcmap(str toupper); 


strm stream *strm stdout - strm writeio(1 /* stdout */); 


/* stdin | [x-»x.toupper()) | stdout */ 
strm connect(strm stdin, strm map); 
strm connect(strm map, strm stdout); 


strm loop(); 


return 0; 


E] 2-31 main 函数 的 原型 


首先 ， 表 示 管 道 组 成 部 分 的 结构 体 是 strm stream, main 函数 的 开头 对 构成 这 次 原型 管道 
的 3 个 组 成 部 分 进行 了 初始 化 。 

RR, strm connect O 函数 把 这 3 个 strm stream 连接 了 起 来 。 运 行 Streem 程序 时 ， 程 
序 内 部 会 进行 这 种 管道 的 构建 处 理 。 

最 后 ，strm loop() 函数 运行 管道 处 理 。 处 理 完毕 后 ，stzm_1oop () 运行 结束 ， 程 序 运行 























表示 管道 的 结构 体 strm_stream 的 定义 如 图 2-32 所 示 。 








struct strm stream { 


2-4 ”事件 循环 


strm task mode mode;  /* 生产 者 、 过 滤器 、 消 费 者 中 的 一 个 */ 
unsigned int flags; /* hw */ 
strm func start func; /* 开始 函数 */ 
































strm func close func; /* 后 续 处 理 函 数 */ 
void *data; /* 流 本 身 的 数据 */ 
strm stream *dst; /* 输出 目的 地 的 流 */ 
strm stream *nextd; /* 输出 目的 地 的 链接 */ 

















K 2-32 strm stream 


strm_streanm 的 结构 体 被 dst 
指针 链接 起 来 组 成 了 管道 ( 图 2-33 )。 
当 一 个 流 被 多 个 流连 接 时 ， 可 以 通过 
dst 的 输出 目的 地 的 链接 字段 nextd 
来 访问 这 些 流 ( 图 2-34 )。 像 这 样 一 
个 流 分 为 多 个 ， 或 者 多 个 流 访 问 一 个 
流 ， 就 形成 了 流 的 网 状 结构 ( 尽管 大 
部 分 情况 下 是 串联 的 )， 这 种 网 状 结 
构 就 称 为 管道 。 

Streem 程序 的 本 质 就 是 这 种 流 的 
定义 以 及 管道 的 构建 。 之 后 就 会 以 事 
件 在 所 构建 的 管道 中 流动 的 形式 进行 
处 理 。 


























自行 开发 事件 循环 





stdin | (x-»x.toupper() | stdout 


stdin TOUPPER stdout 
生产 者 过 滤器 消费 者 
dst dst dst 


图 2-33 管道 ( cat 的 例子 ) 











stdin | {x—>x.toupper()} | stdout 
stdin | {x—>x.tolower()} | stdout 



















stdin TOUPPER stdout 
生产 者 Ls 消费 者 
dst dst > dst 


nextd 


TOLOWER 
dst 


2-34 ”多 个 流 的 结合 




















实际 进行 事件 处 理 的 是 strm loop O 函数 ， 这 个 函数 需要 进行 以 下 人 处理 。 


e 根据 /O 的 输入 等 产生 事件 





e 对 产生 的 事件 进行 相应 的 处 理 。 如 果 是 输入 事件 ， 则 进行 数据 的 读 取 、 行 的 分 割 等 处 理 
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NULL 


NULL 






















































































e 把 事件 处 理 的 结果 发 送 到 管道 的 下 一 个 流 ， 进 行 接 下 来 的 处 理 


























。 之 后 进行 循环 








世界 上 有 很 多 进行 这 种 事件 处 理 的 库 ， 光 是 知名 的 就 有 以 下 几 种 。 


@ libevent 
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e libev 


@ libuv 














libevent 是 老牌 的 事件 处 理 库 ， 是 使 用 回调 实现 伴 有 VO 等 的 事件 处 理 的 一 系列 库 的 鼻祖 。 

libev 对 1ibevent 做 出 了 一 些 改善 。1ibev 5jlibevent 的 API 不 同 ， 主 要 改善 了 速度 以 
及 废除 了 对 一 个 文件 描述 符 进行 检测 的 watcher 数量 的 限制 。 

libuv 是 在 1ibev 的 基础 上 为 node.js 开发 的 事件 处 理 库 。 它 最 与 众 不 同 的 地 方 就 是 在 UNIX 
之 外 的 操作 系统 ( 也 就 是 Windows) 上 工作 。 男 外 ， 线 程 相 关 的 API 接口 也 很 丰富 。 

一 开始 我 考虑 让 Streem 也 使 用 这 些 库 来 实现 ， 可 在 多 线程 的 地 方 出 现 了 问题 。 我 想 在 Streem 
的 实现 中 使 用 多 线程 ， 可 是 这 些 事 件 处 理 库 不 支持 多 线程 ， 准 确 来 说 是 不 支持 在 线程 间 传递 事件 。 
另外 ，Streem 中 会 大 量 使 用 seq () 这 种 非 UO 的 事件 ， 在 这 一 点 上 也 遇 到 了 问题 ， 所 以 我 决定 自 


























己 去 实现 事件 循环 。 






































不 过 ， 也 可 能 是 因为 我 有 些 东 西 不 知道 所 以 才 碰 到 了 这 些 问题 。 我 真 的 太 久 没有 接触 事件 驱动 





编程 ， 虽 然 开 发 过 早期 的 Ruby 线程 系统 ， 但 其 实 也 没什么 多 线程 编程 的 经 验 。 
































话说 回来 ， 我 在 大 学 毕业 后 进入 的 那 家 公司 独自 开发 了 X Window 工具 箱 ， 那 时 候 用 到 了 事件 








驱动 编程 。 


























所 以 今后 我 还 是 会 继续 进行 事件 处 理 库 的 相关 研究 。 因 为 如 果 有 什么 方法 可 以 满足 需求 的 话 ， 





肯定 还 是 “不 要 重复 发 明 轮子 ” 


VO 事件 的 检测 





为 好 。 














在 事件 驱动 编程 的 输入 输出 中 ， 重 要 的 是 避免 “阻塞 ”。 这 里 的 阻塞 是 指 ， 如 果 在 数据 还 没 到 

















达 文 件 描述 符 的 时 候 读 取 数 据 ， 





那么 系统 调用 就 会 在 数据 到 达 之 前 一 直 处 于 停止 状态 ， 所 以 在 实际 





读 取 数 据 之 前 ， 我 们 需要 知道 数据 是 否 已 经 到 达 文 件 描述 符 。 
有 儿 种 方法 可 以 做 到 这 一 点 ， 其 中 最 老 套 的 就 是 select 系统 调用 (图 2-35)。 但 select 有 
一 些 缺陷 ， 那 就 是 等 待 的 文件 描述 符 有 数量 限制 ， 以 及 检查 个 文件 描述 符 需 要 花费 nn 信 的 时 间 。 


这 些 限 制导 致 select 不 适合 
便 应 运 而 生 。 


#include <sys/time.h> 
#include <sys/types.h> 
include «unistd.h- 











/* select RA 



































j 来 处 理 近年 来 备 受 重视 的 大 量 访问 的 场景 。 于 是 ， 更 好 的 系统 调用 





nfds - 等 待 的 最 大 文件 描述 符 








readfds - 等 待 读 取 的 文件 描述 符 身 





A 


writefds - 等 侍 
exceptfds -= 








等 待 写 入 的 文件 描述 符 集合 





和 [十 























待 异 党 的 文件 描述 符 集合 
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timeout - 最 大 等 待 时 间 ( 或 者 设 为 NULL， 表 示 不 启用 超时 一 直 等 待 IT/O 到 来 ) */ 


int select(int nfds, 


fd set *readfds, 

















fd set *writefds, 


EE SAE excepukds sts mev ou meoue 


/* £d set 的 初始 化 */ 
DEZHERONEdEseto*set) 
/* 将 fd 加 入 到 fa_set 集 合 中 */ 


void F 


void F 





D SET(int fd, 


Eel Get SEEE) y 





/* 测试 fd 是 否 在 


dme g 


/* 将 一 个 fd 从 fa_set 集 合 


void F 








fd_set 集 合 中 */ 


SR 








D CLR(int fd, 


2-835 select 系统 调用 


“更 好 的 系统 调 
遗憾 的 是 这 些 
JÆ libevent, libev flllibuv 在 内 部 就 区 分 使 用 了 这 些 


epoll 系 


我 决定 将 epoll 系统 调用 用 在 这 次 的 原型 





























统 调 用 


f LI 清除 
0! SEE SHE)s 

















IH, epo11 虽然 只 


]” 包 括 Linux 的 epol1 系统 调用 和 BSD 系 操作 系统 的 kqueue 系统 调用 。 
系统 调用 还 没有 被 标准 化 ， 需 要 根据 操作 系统 进行 
系统 调用 。 


切换 。 实 际 上 前 面 提 到 的 事件 处 理 











1 能 在 Linux 系统 中 使 用 ， 但 本 文 





indi 《日 经 Linux》 杂 志 上 连载 的 ， 所 以 这 一 点 ( 至 少 在 我 撰 稿 的 时 候 ) 不 用 担心 。 不 过 Streem 语 
言 的 最 终 实 现 还 需要 依靠 epoll 之 外 的 IO 检查 。 

epoll 系统 调用 (实际 上 是 epoll create、epoll ctlfülepoll wait 这 3 个 系统 调 
用 ) 的 使 用 方法 如 图 2-36 所 示 。 








#include <sys/epoll.h> 


/* 为 epoll1 创 建文 件 

















ARIF */ 


gm epo MEM cpi eere 


EsuctEepolsMevenmtaevr 
egvoevents e EPOBLEIN: 
ev.data.ptr = data; /* 把 这 个 数据 传 给 epoll wait */ 
/* 添加 要 等 待 的 文件 描述 符 fdq 到 epol11 */ 
/* EPOLLIN 是 等 待 读 取 */ 
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epoll ctl(epoll fd, EPOLL CTL ADD, fd, &ev); 


struct epoll event events[10]; 
Bec (5) d 
/* nfds - 数据 已 到 达 的 fd 的 数量 */ 
ime miee = epal venre (EPoLl sl, Evente, MO, -3) 5 





for (int i=0; i<nfds; i++) { 
/* 拿 到 epoll ct1 传 过 来 的 数据 */ 


data = events[i].data.ptr; 





} 
} 


图 2-36 epoll 系统 调用 


5 select 系统 调用 不 同 ， 在 epol1 中 ,事件 信息 会 被 传递 给 结构 体 ， 所 以 不 需要 考虑 等 待 
的 IO 的 数量 。 另 外 ，epol1_ctl 与 epoll_wait 即使 在 不 同 的 线程 中 也 能 保证 正常 工作 ， 所 以 
可 以 在 一 个 线程 中 用 epoll wait 构建 事件 循环 ， 在 其 他 线程 添加 要 等 待 的 IO。 











事件 队列 


Streem 原型 的 系统 构成 如 图 2-37 所 示 。 


初始 化 一 一 
- 生成 Stream “一 -一 添加 到 I/O 循 环 
- 结合 Stream 
















































































任务 1/O 循 环 
。 从 队列 了 - 用 epolL_ wait 等 待 VO 
。 3s f3 [al if k 队列 “把 流 添 加 到 队列 
“ 重复 oz 





























E] 2-37 Streem 系统 构成 
首先 在 初始 化 阶段 生成 流 (stzrm_streem)。 之 后 ， 流 被 结合 到 一 起 构成 管道 。 这 里 使 用 

















epol1l 把 等 待 IO 的 流 添 加 到 IO 循环 。 
接 下 来 ，L/O 循环 会 作为 独立 的 线程 启动 。 这 个 线程 使 用 epo11_wait 等 待 JO， 把 传 来 数据 
的 流 添 加 到 任务 队列 中 。 添 加 到 任务 队列 中 的 信息 有 3 个 ， 分 别 是 运行 对 象 的 流 、 运 行内 容 的 函数 
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指针 、 前 面 的 流传 来 的 数据 (void * )。 管 道 开头 的 流 中 没有 数据 传 来 ， 所 以 传递 的 是 NULL. 

之 后 在 主线 程 中 运行 事件 处 理 循 环 。 在 主线 程 的 事件 循环 中 会 依次 从 任务 队列 取出 信息 ， 运 行 

函数 中 会 进行 输入 的 读 取 、 字 符 串 化 、 传 来 的 数据 的 加 工 或 输出 等 实际 处 理 。 函 数 中 使 用 
strm emit () 向 下 一 个 流传 递 数 据 。 

strm emit () 函数 有 3 个 参数 : 第 1 个 是 与 当前 任务 相对 应 的 strm_stream 结构 体 (注意 
不 是 数据 传递 目的 地 的 流 。 这 个 参数 的 作用 在 于 即使 管道 构造 发 生变 化 也 不 需要 修改 函数 ); 第 2 
个 是 接收 到 的 数据 (void * 形式 ); 第 3 个 是 收 到 数据 后 ， 接 着 这 个 函数 执行 的 回调 函数 。 

即使 调用 了 strm_emit () ， 也 并 不 意味 着 下 一 个 处 理 就 会 被 立刻 执行 。 被 传递 的 数据 首先 要 
添加 到 任务 队列 。 函 数 运 行 结束 后 从 主 循环 中 取出 下 一 个 任务 执行 。 

































































处 理 函 数 的 模式 


有 了 这 种 任务 队列 ， 不 用 太 依 赖 循环 就 可 以 实现 Streem 的 处 理 函数 。 处 理 函 数 的 实现 模式 大 
体 可 分 为 以 下 3 种 。 














1. 使 用 回调 实现 事实 上 的 循环 

这 个 模式 用 于 实现 输入 处 理 这 种 生成 数据 的 流 。 把 处 理 分 割 为 多 个 C 函数 ,在 每 次 进行 
strm_emit () 时 , 设置 回调 函数 为 “下 一 个 函数 "。 把 回调 设置 为 同一 个 函数 就 形成 了 事实 上 的 
循环 。 在 原型 的 源 代码 中 ，io.c 的 read cb fll readline cb 就 使 用 了 这 个 模式 。 





























2. 直接 处 理 接 收 到 的 数据 
该 模式 只 是 逐个 处 理 接收 到 的 数据 ， 而 不 会 重复 自身 函数 的 处 理 。main.c 的 map_recv() 和 
io.c 的 write cb() 就 属于 这 种 模式 。 该 模式 会 把 strm emit () 的 回调 设置 为 NULL。 





3. 在 循环 中 进行 emit 
按理 说 在 循环 中 进行 strm_emit () 也 是 可 行 的 。 这 种 做 法 虽然 易于 理解 ， 但 会 把 任务 积压 在 
队列 中 ， 在 函数 处 理 结束 返回 到 主 循环 之 前 处 理 都 不 会 有 什么 进展 ， 所 以 不 推荐 使 用 这 种 模式 。 














原型 的 代码 





这 里 讲解 的 原型 的 源 代码 放 在 了 http://github.com/matz/streem 代码 库 的 lib 目录 中 。 在 这 个 目录 
中 执行 make 命令 ， 就 会 生成 一 个 名 为 a.out 的 可 执行 文件 。 这 个 可 执行 文件 的 作用 在 于 把 标准 输 
入 转 为 大 写字 母 并 输出 。 因 为 出 版 存在 时 间 差 ， 这 里 的 内 容 可 能 会 与 将 来 的 最 新 版 有 所 出 入 ， 所 以 
我 给 本 节 撰 稿 时 的 代码 打 了 201503 的 标签 。 
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今后 的 方向 


虽然 还 在 创建 原型 的 试验 阶段 ， 但 我 已 经 渐渐 看 清 了 今后 的 方向 。 

首先 要 做 的 就 是 解决 因 使 用 epo1l11 而 只 能 在 Linux 上 运行 这 一 问题 。 可 以 想到 的 办 法 有 大 幅 
改写 1ibuv， 或 者 在 没有 epol1 的 环境 中 使 用 kqueue 和 select 等 "。 
其 次 就 是 实现 多 线程 化 。 这 次 实现 了 一 个 等 待 IO 的 线程 和 一 个 处 理事 件 队列 的 线程 。 为 了 最 
大 程度 地 利用 多 核 ， 我 希望 根据 CPU 内 核 数 生成 线程 来 分 担 处 理 。 
其 实在 准备 本 次 原稿 时 ， 我 尝试 过 用 多 个 线程 从 事件 队列 中 取出 事件 ， 但 由 于 人 处理 时 间 的 关 
系 ， 发 生 了 运行 顺序 错乱 的 情况 。 如 果 放 任 不 管 ， 在 输出 文件 内 容 时 ， 输 出 顺序 就 会 根据 行 的 长 度 
而 发 生变 动 。 不 管 怎么 说 这 都 是 一 个 大 问题 ， 所 以 这 次 就 用 一 个 线程 来 进行 事件 处 理 。 把 分 配 线程 
的 单位 由 各 个 事件 修改 为 各 个 管道 或 许 能 够 解决 这 个 问题 ， 但 这 次 已 经 没有 时 间 进 行 尝 试 了 。 






























































小 结 
作为 原稿 素材 诞生 的 Streem 语言 出 乎 意料 地 得 到 了 广泛 的 关注 ， 不 过 只 是 停留 在 原型 这 一 层 


面 上 是 没有 意义 的 ， 因 此 我 打算 今后 ( 与 连载 一 起 ) 继续 完善 ， 使 其 达到 实用 的 程度 。 在 杂志 连载 
中 实时 讲解 编程 语言 的 开发 过 程 是 一 次 非常 难得 的 体验 。 还 请 各 位 读者 继续 期 待 后 面 的 内 容 。 


时 光 机 专栏 
并 发 编程 之 难 














D) 





















































本 节 是 2015 年 3 月 刊 中 刊登 的 内 容 。 这 次 我 们 开发 了 Streem 语言 处 理 器 的 核心 
件 循环 部 分 。 

在 Streem 中 ， 事 件 循环 与 词法 分 析 、 语 法 分 析 等 进行 语言 处 理 的 部 分 同等 重要 。 事 件 循 
环 并 不 容易 实现 ， 本 来 我 打算 使 用 现 有 的 库 ， 但 没有 一 个 库 可 以 支持 Streem 要 求 的 那 种 多 线 
程 ， 无 奈 之 下 我 只 好 自己 动手 开发 。 这 次 开发 的 是 单线 程 版 本 。 

在 下 一 节 ， 我 将 把 它 升 级 为 多 线程 版 本 ， 但 是 问题 层出不穷 。 老 实说 ， 这 本 书 涉及 并 发 编 
程 的 部 分 都 是 反复 试验 和 失败 的 记录 。 虽 然 听 起 来 像 是 在 为 自己 辩解 ， 但 对 于 我 这 种 疏忽 大 意 
的 人 来 说 ， 并 发 编程 太 过 深奥 。 正 因为 如 此 ， 我 们 才 需 要 Streem 那样 的 语言 。 它 抽象 程度 高 ， 
可 以 帮助 我 们 掩盖 掉 并 发 编程 的 难度 。 然 而 没有 人 来 做 这 件 事 ， 所 以 我 只 好 自己 去 做 。 
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Li 



















































































































































































中 写 完 原稿 后 有 人 发 来 了 使 用 select 的 Pull Request， 现 在 已 经 可 以 在 Windows 和 Mac 上 运行 了 。 
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这 次 除了 事件 循环 ， 我 还 对 语法 进行 了 修改 。 不 过 为 了 让 本 书 更 易于 理解 ， 我 在 正文 里 去 
掉 了 关于 阶段 性 修改 语法 的 内 容 。 但 另 一 方面 ， 我 觉得 作为 语言 设计 的 资料 ， 修 改 语法 的 原 医 
非常 有 价值 ， 所 以 最 后 就 以 专栏 的 形式 附 在 了 正文 的 后 面 。 比 如 ， 我 将 下 面 这 个 语法 修改 成 
(pese cs ERR 











































































































e 函数 中 要 像 {|x| . . . } 这 样 把 参数 用 | | HEK 





























另外 ， 为 了 今后 使 语法 变 得 更 加 简单 ， 连 载 时 “if 语句 的 条 件 表 达 式 不 带 括号 ”的 语法 
也 变 成 了 条 件 表 达 式 带 括 号 的 形式 。 

















改善 语法 的 理由 


在 实现 了 语法 检查 器 ， 又 写 了 几 个 Streem 语言 的 示例 代码 之 后 ， 我 发 现 了 一 些 不 太 满 
意 的 地 方 。 
Streem 从 Ruby 那里 继承 了 代码 块 ( 匿名 函数 ) 的 参数 带 “ | ”的 写法 ， 比 如 下 面 的 代码 。 























(s| x * 2] 





» AL 


但 是 Streem 中 的 “| ”符号 多 用 来 连接 流 ， 比 如 2-3 节 中 就 出 现 了 下 面 这 样 的 例子 。 














pe 


























any map ie Eea | «Jj 








这 样 就 会 造成 混乱 ， 老 实说 也 并 不 美观 ， 于 是 我 稍微 调整 了 一 下 匿名 函数 的 语法 ， 新 的 
语法 如 下 所 示 。 








(NCCEEICES E o) 














在 没有 参数 或 者 省 略 参 数 时 ， 所 有 “->” 都 可 以 省 略 不 写 。 
































{ rte "imedgieWwa?s } 


这 些 语法 参考 了 Groovy 和 Swift。 是 不 是 很 有 现代 感 ? 
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这 样 一 来 ， 语 法 就 美观 一 些 了 。 至 少 对 我 而 言 ， 语 法 是 否 美观 会 影响 编程 的 激情 ， 所 以 
是 一 个 很 好 的 修改 。 


发 生 了 语法 冲突 
但 是 这 个 修改 造成 了 语法 冲突 。Streem 把 if 等 语句 的 代码 用 “{}”" 括 起 来 ， 这 就 和 医 
名 函数 发 生 了 冲突 。 准 确 来 说 ， 如 果 在 函数 调用 后 面 加 上 代码 块 ， 匿 名 函数 就 会 作为 最 后 一 
个 参数 传 给 函数 。 这 个 语法 规则 导致 了 冲突 的 发 生 。 

可 能 有 人 不 理解 语法 冲突 是 怎么 一 回 事 。 当 语法 分 析 器 去 读 取 被 词法 分 析 器 分 割 为 单词 
的 程序 ， 并 用 语法 规则 去 解析 时 ， 无 法 决定 该 用 哪个 规则 进行 解析 的 情况 就 称 为 “冲突 "。 

拿 下 面 这 段 代码 来 说 ，"foo (x) " 之 后 出 现 的 是 “{"， 这 样 就 无 法 判断 这 是 表示 if 语句 
的 代码 ， 还 是 表示 传 给 foo 函数 的 匿名 函数 了 
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alg sexus) d 
print ("helloWNn") 


) 


3 种 解决 方法 
解决 这 个 冲突 的 其 中 一 个 方法 是 像 C 语 言 那样 把 if£ 语句 的 条 件 表达 式 用 括号 括 起 来 。 






































aiu (Geo) 4 
print "helloWn" 


} 











这 样 一 来 ， 函 数 调用 和 if 语 句 的 代码 就 可 以 被 明确 地 区 分 开 来 。 不 过 在 现代 语言 中 ， 
if 语 句 的 条 件 表 达 式 一 般 都 不 带 括号 ( 如 Swift 和 Go 等 )， 而 且 我 们 也 不 希望 代码 量 增加 。 

We 既然 匿名 函数 以 “位 开始 导致 无 法 与 i£ 语 句 区 分 开 来 ， 那 就 使 用 其 他 
符号 来 表示 匿名 函数 。 比 如 像 Ruby 的 lambda 表 达 式 一 样 ， 匿 名 函数 用 “->” 开 头 。 这 个 方 
D i. 采用 这 个 方法 ， 匿 名 函数 就 会 变 成 下 面 这 样 。 













































































































































































se a N e aA 


函数 调用 代码 如 下 所 示 。 





map =x xk =a} 








这 么 表示 匿名 函数 看 





起 来 也 还 不 错 ，{1 




















函数 调用 的 




















MH 





这 种 代码 


Ruby 代 码 块 的 美观 性 














E, 其 实 过 去 在 Ruby 中 用 





块 的 语法 
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我 不 是 很 




















最 终 我 决 








第 3 利 





方法 来 解决 












































EE 








ps 所 以 最 后 就 没有 采 


“看 起 来 不 像 是 控制 结 
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i. WS 





代表 匿名 函数 时 ， 就 考虑 


o 














这 个 问 是 


也 就 是 不 允许 在 不 改变 




















4 








2 ET E JIL J^ 忽 忘 记 5 j 


/* 避免 语法 冲突 的 部 分 (8 


吾 法 的 情况 下 ， 在 if 

复制 语法 规 
的 语法 而 付出 的 
其 实 2-3 节 介 














/* 一 般 的 表达 式 * 


expr 


: expr 
expr 
expr 
expr 
expr 
expr 
expr 
expr 
expr 
expr 
expr 
expr 


expr 


expr 


expr 





语句 的 条 件 晤 
则 的 代码 从 实现 的 
Vf. B 





代码 块 传 给 


把 匿名 函数 添加 到 函数 ; 




















2H 























匿名 函数 和 函数 调用 的 
中 ， 具 体 做 法 如 图 2-A 所 示 。 


















































m) 9 


op plus expr 


op minus expr 


op mult expr 
op div expr 
op mod expr 


op bar expr 


op amper expr 


op gt 
op ge 
op lt 


expr 
expr 
expr 
opele 
op eq 
op neq expr 


expr 


expr 


op plus expr 
op minus expr 
'!1' expr 


Hat IDE 


op and expr 


op or expr 


primary 


3 度 来 看 
以 我 也 就 想 开 了 。 
绍 的 语法 也 会 出 现 这 个 问题 ， 但 我 却 没 有 发 


函数 的 规则 了 。 

















并 不 是 最 好 的 方法 ， 但 这 























也 是 为 了 实现 自己 满意 
































S$prec 


S$prec 











/* if$8Y 








吾 句 的 条 件 表达 式 
condition : 
| condition 


| condition 


condition 


差不多 都 是 expr 的 副本 ) */ 
op plus condition 
op minus condition 


op mult condition 








现 ， 这 是 为 什么 呢 ? 原来 是 我 
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condition op div condition 
condition op mod condition 
condition op bar condition 
condition op amper condition 
condition op gt condition 
condition op ge condition 
condition op lt condition 
condition op le condition 
condition op eq condition 


condition op neq condition 


op plus condition $prec '!' 
op minus condition SpProc Ekai 
a cconclsittssiren 
'«! condition 


condition op and condition 


condition op or condition 





cond 

















/* 基本 表达 式 (primary) 的 共同 部 分 */ 

primaryO .: lit number 

lit string 

identifier 

(Ue 

Scr 

V [ru wu 

Jp" meg) ewesjs; VJ" 

ü pu uso T 

keyword if condition '(' compstmt '}' 
opelse 
keyword nil 
keyword true 





keyword false 

















/* 调用 无 代码 块 的 函数 */ 





cond : primaryO 
aent ier ot 
iecnd dentiste d args EN 


| cond '.' identifier 
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/* 调用 有 代码 块 的 函数 */ 
primary : primaryO 
block 


identifier block 











idene reri ((" ieyoue cheers r eye lodioxeus 
preinewy 1." ahekewanesuradese ro 
Eee 





primary ee dentai rieni SEESSR 


-D 多 线程 与 对 象 


本 节 继 续 实现 Streem 的 核心 部 分 。 这 次 我 们 挑战 通过 线程 来 有 效 利用 多 核 CPU。 为 
TA 



































可 能 地 让 任务 并 行 处 理 ， 我 们 只 启动 与 CPU 内核 数 同 等 数量 的 工作 线程 来 运行 














2-4 节 最 后 提 到 了 如 果 用 多 线程 运行 任务 ， 就 会 出 现任 务 运 行 顺序 错乱 的 情况 。 


多 线程 化 


我 们 再 稍微 思考 一 下 发 生 了 什么 。 首 先 回顾 一 下 之 前 的 内 容 : lib 目录 下 的 原型 (a.out ) 从 标 
准 输入 读 取 字 符 串 ， 将 其 全 部 转换 为 大 写 ， 然 后 写 人 到 标准 输出 。 














% echo foo | a.out 
FOO 





2-4 节 介 绍 的 单线 程 版 本 的 程序 结构 ( 准确 来 说 是 有 
一 个 等 待 输入 输出 的 IO 线程 和 一 个 实际 进行 处 理 的 工作 
线程 ) 如 图 2-38 所 示 。 

当 yo 线程 检测 到 有 可 以 输入 的 数据 ， 或 者 工作 线程 
向 接 下 来 的 任务 emit 数据 时 ， 数 据 的 处 理 内 容 就 会 被 送 
往 任务 队列 。 工 作 线程 从 任务 队列 中 依次 取出 任务 ， 继 续 
进行 处 理 。 















任务 
队列 











图 2-38 单线 程 版 本 
尝试 多 核 化 


我 考虑 把 这 个 过 程 多 线程 化 。 为 
了 最 大 限度 地 利用 多 核 CPU， 我 打算 
启动 与 CPU 内 核 数 同等 数量 的 工作 
线程 ， 让 空闲 的 工作 线程 从 任务 队 
列 中 取出 任务 进行 处 理 ( 图 2-39 )。 
和 之 前 一 样 ， 在 任务 运行 中 发 生 图 2-39 多 线程 版 本 (第 1 版 ) 
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emit 时 ， 由 于 要 向 管道 中 的 后 续 处 理 传递 数据 ， 所 以 要 将 任务 放 到 队列 中 。 男 外 ， 如 果 任 务 还 有 
后 续 处 理 ， 就 要 把 自身 ( 的 后 续 处 理 ) 加 入 到 队列 中 。 

启动 这 种 结构 的 程序 后 ， 在 进行 短 的 输入 或 者 从 键盘 进行 标准 输入 时 就 会 很 顺畅 。 但 是 当 输入 
一 定 程度 的 长 文件 时 ， 就 会 出 现 异 常 ， 输 出 的 转换 结果 与 输入 的 文件 的 行 的 先后 顺序 发 生 了 改变 。 
这 是 不 可 以 的 。 

我 考虑 了 一 会 儿 ， 终 于 明白 了 其 中 的 原因 。 将 输入 的 数据 转换 为 Streem 的 字符 串 ， 或 者 将 字 
符 串 中 的 字符 转换 为 大 写 ， 在 进行 这 样 的 处 理 时 ,， 行 越 长 处 理 时 间 就 越 长 。 因 为 速度 越 快 的 工作 线 
程 会 越 先 从 任务 队列 中 取出 任务 开始 处 理 ， 于 是 在 处 理 较 长 的 行 的 线程 还 在 工作 时 ， 后 面 处 理 较 短 
的 行 的 线程 可 能 就 赶 在 它 前 面 结束 了 。 多 线程 环境 不 能 保证 顺序 和 时 间 ， 像 我 一 样 只 开发 单线 程 程 
序 的 程序 员 经 常 忘记 这 一 点 。 想 充分 利用 多 核 ， 但 运行 顺序 却 得 不 到 保证 ， 真 让 人 伤 脑筋 。 


















































再 次 挑战 多 核 化 


于 是 我 开始 思考 能 够 保证 运行 顺序 的 结构 。 我 想到 了 几 种 方法 ， 其 中 最 省 事 的 方法 就 是 将 某 个 任务 
固定 由 某 个 工作 线程 运行 。 只 要 一 个 任务 由 同一 个 工作 线程 运行 ， 就 会 按照 进入 队列 的 顺序 依次 处 理 。 
因此 我 在 第 1 版 的 基础 上 进行 了 以 下 修改 。 



































e 每 个 线程 都 拥有 一 个 任务 队列 
e 首次 运行 时 决定 运行 任务 的 线程 





























运行 任务 的 线程 是 固定 的 ， 这 样 就 不 会 出 现 顺序 改变 的 情况 ， 程 序 也 就 可 以 正常 工作 了 。 

此 外 ， 我 还 制定 了 下 面 的 规则 ， 以 进一步 有 效 利 用 多 核 CPU。 

第 1 个 规则 是 在 最 开始 启动 像 文件 输入 这 样 的 生产 者 任务 时 ， 把 它 添加 到 等 待 处 理 的 任务 最 
少 的 队列 中 。 这 么 做 的 目的 是 分 散 工作 线程 的 负荷 。 第 2 个 规则 是 在 工作 线程 n 中 运行 的 任务 进 
行 emit 时 ,运行 进行 emit 的 任务 的 工作 线程 ( 如 果 还 没有 确定 线程 的 话 ) 必须 为 工作 线程 n+1。 
这 样 一 来 ， 当 存在 多 个 管道 时 ， 就 极 有 可 能 无 须 等 待 第 一 个 任务 结束 就 可 以 开始 下 面 的 任务 。 


第 2 版 的 程序 结构 如 图 2-40 所 示 。 
工作 线程 工作 线程 



























































任务 队列 中 的 任务 基本 上 是 按照 
最 初 投入 的 顺序 依次 运行 的 。 工 作 线 
程 从 队列 中 依次 取出 任务 运行 并 进行 
循环 ， 在 管道 全 部 结束 之 后 ， 循 环 也 
随 之 结束 。 























带 优先 级 的 队列 
图 2-40 多 线程 版 本 ( 第 2 版 ) 


通过 前 面 的 改善 ， 事 件 循环 的 多 线程 化 取得 了 成 功 ， 不 过 有 一 点 让 我 有 些 在 意 。 
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管道 中 的 任务 是 生产 者 一 过 滤器 一 …… > 消费 者 这 种 形式 ， 生 产 者 开始 管道 处 理 ， 数 据 被 后 续 
的 过 滤 需 依次 加 工 之 后 ， 最 后 由 消费 者 消费 掉 。 一 旦 管道 段 数 变 多 ， 管 道中 越 靠 后 的 任务 运行 速度 


就 可 能 越 慢 。 








务 称 为 “任务 n”。 




















为 了 方便 大 家 理解 ， 我 们 来 看 一 个 例子 。 在 这 个 例子 中 ，CPU 为 双核 ,管道 有 3 段 。 在 后 面 的 
讲解 中 ， 我 们 把 第 n 个 工作 线程 称 为 “工作 线程 na”, 第 n 个 队列 称 为 “队列 n", B n 段 管道 的 任 





在 这 个 例子 中 ， 处 理 按 如 下 步骤 进行 。 


(1) 任务 1 ( 生产 者 ) 在 工作 线程 1 PX 











了 emit， 在 队列 2 中 添加 任务 2 





























(2) 任务 2 ( 过 滤器 ) 在 工作 线程 2 中 并 
(3) 任务 3 ( 消费 者 ) 在 工作 线程 1 中 运行 











f 
f 





7 emit， 在 队列 1 中 添加 任务 3 














不 要 忘记 ， 在 工作 线程 1 中 进行 emit 之 后 ,任务 1 也 会 把 自己 添加 到 队列 1 中 ,而 且 有 可 能 





先 于 上 述 第 2 步 的 在 队列 1 中 添 力 











I 任务 3 这 一 处 理 完 成 。 这 样 的 话 ， 在 一 个 数据 在 管道 中 流转 完 之 





前 ， 另 一 个 数据 就 已 经 被 投入 到 管道 中 了 。 这 就 意味 着 数据 一 个 接 一 个 地 被 生产 出 来 ， 任 务 堆 积 在 
队列 中 ， 但 工作 线程 的 处 理 速度 却 赶 不 上 数据 生产 的 速度 。 这 样 下 去 队列 会 越 来 越 长 ， 内 存 就 会 被 
浪费 ， 因 此 我 们 需要 让 生产 和 消费 保持 平衡 。 

为 了 解决 这 个 问题 ， 这 里 使 用 了 带 优 先 级 的 队列 。 也 就 是 说 ， 相 比 在 管道 前 方 的 生产 者 任务 ， 
优先 处 理 加 工 数据 的 过 滤器 任务 和 消费 者 任务 。 这 个 方法 的 作用 在 于 防止 队列 过 长 。 

于 是 我 稍微 修改 了 一 下 队列 的 实现 。 














队列 的 实现 

















下 面 我 们 就 来 看 一 下 队列 的 实现 。 图 2-41 是 表示 Streem 队列 的 结构 体 。 











struct strm queue task { 


strm stream *strm; 
strm func func; 


strm value data; 


struct strm queue task *next; 


)5 


struct strm queue { 


pthread mutex t mutex; 


pthread cond t cond; 


Sms S tErmaquenegt sic E M SII 


m 


E] 2-41 Streem 的 队列 结构 体 
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这 个 结构 体 的 本 质 是 strm_queue_task 结构 体 的 链表 。 队 列 中 任务 的 添加 和 取出 处 理 如 


图 2-42 所 示 ， 不 过 这 里 只 摘录 了 最 基本 的 部 分 。 

队列 的 基本 结构 是 从 strm_queue 结构 体 
的 fo (first out) 成 员 变 量 开 始 连 在 一 起 的 链表 
图 2-43 )。 取 出 任务 时 ， 从 fo 取出 一 个 任务 ， 然 
后 将 £o 修改 为 指向 下 一 个 任务 。 添 加 任务 时 ， 使 
链表 未 尾 的 任务 的 next 指向 新 的 任务 。 通 过 遍 
历 链表 寻找 末尾 的 做 法 效率 很 低 ， 因 此 就 让 £i 
( first in ) 成 员 变 量 指向 末尾 。 











一 、 
































NULL 
L | ]- "| | ] 
优先 级 高 优先 级 低 
图 2-43 ”使 用 链表 的 队列 
优先 级 的 实现 
接 下 来 实现 队列 的 优先 级 ， 做 法 是 在 Ei 和 


fo 之 间 增 加 hi (high priority input) 指针 。 在 添 
加 优先 级 低 的 (生产 者 ) 任务 时 ， 和 之 前 一 样 在 
fi 处 添加 任务 即 可 。 

E E hi 指向 的 “高 
优先 级 任务 的 末尾 "”， 这 样 从 fo 开始 连 在 一 起 的 
整个 链表 的 任务 就 会 按照 优先 级 从 高 到 低 的 顺序 
排列 。 从 队列 中 取出 任务 时 ， 不 用 考虑 优先 级 ， 
直接 从 前 面 取出 即 可 。 




















并 发 控制 


向 任务 队列 中 添加 任务 的 线程 和 取出 任务 并 
运行 的 线程 在 大 部 分 情况 下 是 不 同 的 线程 。 


e 添加 
void 
strm queue push(strm queue *q, 
SEEUCE strm queue task *t) 
{ 
ae (er 
dq Sti Snext = t; 
) 
Gioia e (Ep 
if (!q-»fo) ( 
GSi = Ej 





运行 ) 


e 
S 
hi 


int 
Sstrm queue exec(strm queue *q) 
{ 
Sis cit StEmgcq ee MS It 
Strm stream *strm; 
strm func func; 
strm value data; 
iE = GEE 
GSO = 
if (!q-»fo) ( 
q-»fi = NULL; 


} 


t-»next; 


serm = E=->sStErm; 
BUIS Ee > Ee 
data - t-»data; 
free(t); 


(*func) (strm, data); 
return 1; 


) 


图 2-42 ”队列 中 任务 的 添加 和 取出 处 理 ( 摘录 ) 
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这 就 意味 着 在 某 个 线程 正在 修改 队列 时 ， 如 
果 别 的 线程 也 要 修改 队列 ， 就 可 能 会 破坏 链表 的 。 CO 初始 化 
完整 性 。 pthread mutex init(&mutex, NULL); 
为 了 规避 这 个 风险 ， 在 有 可 能 发 生 多 个 线程 (2) lock 
同时 修改 数据 的 情况 时 ， 就 需要 进行 并 发 控制 ， Pthreag mutex lock (&mutex); 
以 使 实际 的 修改 分 别 独立 进行 ， 这 时 就 用 到 了 























(3)unlock 
mutex, [82-41 的 strm queue task 结构 体 中 pthread mutex unlock (&q-»mutex); 
就 增加 了 pthread mutex t 型 的 mutex 成员 
变量 。 2-44 pthread mutex t 的 使 用 方法 








mutex 的 使 用 方法 很 简单 ( 图 2-44 )。 首 先进 行 初 始 化 ， 然 后 将 需要 进行 并 发 控制 的 “危险 区 
域 ” 用 lock Fi unlock 包围 起 来 。 

在 队列 的 实现 中 ,修改 q->fi、gq->hi、q->fo 的 部 分 是 “危险 区 域 "， 需 要 用 lock 和 
unlock 围 起 来 。 这 样 一 来 ， 用 lock 和 unlock 围 起 来 的 部 分 就 会 被 限制 为 只 能 有 一 个 线程 运行 。 

需要 注意 的 是 ，mutex 只 能 进行 显 式 的 并 发 控制 。 假 如 忘记 使 用 lock 和 unlock 围 住 修改 数 
据 的 处 理 ， 就 会 出 现 环 手 的 bug。 















































队列 为 空 时 的 处 理 


还 有 一 点 让 我 比较 在 意 ， 就 是 当 队 列 为 空 时 应 该 如 何 处 理 。 当 队列 中 没有 要 运行 的 任务 时 是 没 
有 什么 事情 可 做 的 ， 这 时 就 需要 等 待 任务 被 添加 到 队列 中 。 

最 简单 的 实现 方法 是 一 边 循 环 一 边 频繁 地 查看 队列 ， 检 查 是 否 有 任务 到 来 ， 这 种 方法 被 称 为 
“ 忙 循环 ”(busy loop), 不过， 到 任务 到 来 为 止 忙 循环 一 直 会 处 于 运转 状态 ， 这 就 白白 浪费 了 CPU 
的 计算 资源 ， 因 此 这 种 做 法 只 有 在 确定 等 待 时 间 较 短 的 情形 下 才能 使 用 。 

这 次 使 用 的 是 POSIX thread 库 的 “条 件 参数 ”功能 。 条 件 参 数 与 互 斥 锁 mutex 组 合 使 用 。 
例如 图 2-45 的 程序 的 (a) 部 分 ， 在 mutex 锁定 期 间 调 用 pthread cond wait () 会 使 当前 线程 
进入 等 待 状态 ， 直 到 被 其 他 线程 唤醒 。 




























































































(a) 使 用 条 件 参 数 时 的 等 待 方法 
pthread mutex lock(&mutex); 
while (!fo) ( // fo 可 能 还 没有 被 设 
pthread cond wait(&cond, &mutex); 
) 


pthread mutex unlock (&mutex); 
































(b) 使 用 条 件 参 数 时 的 唤醒 方法 


pthread mutex lock(&mutex); 














2-45 


ze 


WS s 


// 满足 条 件 时 的 处 理 
// 满足 条 件 时 “唤醒 " 
pthread cond signal(&cond, 














H 





pthread mutex unlock(&mutex 

















// 在 有 多 个 线程 等 待 的 情况 下 ， 
// pthread cond broadcast} 














Aie 


条 件 参 数 的 使 用 方法 

在 运行 队列 中 的 任务 时 ， 如 
直到 有 任务 被 追加 到 队列 中 。 图 2-46 展示 了 并 发 控制 和 条 件 变 量 组 合 使 用 的 版 本 ， 请 大 家 看 
一 下 它 与 图 2-42 有 什么 不 同 〈 图 2-46 中 也 增加 了 对 q- >hi 的 处 理 )。 


























n 


&mutex); 





ignal 唤 醒 其 中 一 个 


























次 唤醒 全 部 线程 
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队列 为 空 就 调用 pthread_cond_wait 0, ， 并 一 直 保持 等 待 状 





strm queue exec(strm queue *q) 


( 


struct strm queue task *t; 


strm stream *strm; 


strm func func; 


strm value data; 


pthread mutex lock(&q-»mutex); 


while (!q-»fo) 


{ 


pthread cond wait(&qg-»cond, &g-»mutex); 


) 


E c ey 


CI Mme» 


if (t == q-»hi) 
q-»hi = NULL; 

j 

if (!q-»fo) ( 
q-»fi - NULL; 


) 





{ 


pthread mutex unlock(&q-»mutex); 


strm = tC->sstrm; 
mee = es 
data - t-»data; 
free(t); 
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(*func) (strm, data); 
return 1; 


) 


图 2-46 从 队列 中 取出 任务 运行 
图 2-46 的 关键 点 在 于 围 在 pthread_ cond wait () 外 面 的 条 件 部 分 的 语句 不 是 if 而 是 
while。 其 实 最 开始 是 用 itf 来 检查 的 ,但 是 有 人 指出 pthread_cond_wait () 在 条 件 不 成 立 的 
情况 下 也 可 能 会 因为 某 些 原 因而 直接 返回 ， 所 以 需要 用 while 来 检查 。 这 不 禁 让 我 觉得 并 发 编程 
真是 深奥 。 
添加 任务 时 也 和 这 段 代 码 一 样 ， 用 mutex Hj lock 和 unlock 围 住 操作 队列 的 数据 的 部 分 ， 
在 末尾 调用 pthread cond signal(). 






















































































多 线程 处 理 的 调试 


像 这 样 ， 我 每 次 都 根据 连载 的 内 容 去 考虑 开发 Streem 语言 处 理 器 的 哪 一 部 分 ， 出 于 一 种 必须 
把 连载 写 完 的 使 命 感 ， 开 发 进度 虽然 缓慢 但 还 是 在 稳步 进行 。 

这 次 讲解 的 部 分 我 在 写 原 稿 时 也 进行 过 调试 。 当 然 我 是 在 确认 程序 运行 没有 问题 之 后 才 写 的 原 
稿 ， 但 是 完美 的 程序 不 是 一 次 就 能 写 出 来 的 ， 我 还 是 进行 了 多 次 调试 。 
其 中 ， 多 线程 程序 的 调试 尤为 麻烦 。 经 过 这 次 修改 ，Streem 的 语言 处 理 器 变 为 多 线程 版 本 了 ， 
这 就 使 调试 变 得 愈 发 麻烦 。 

在 调试 单线 程 程序 时 会 使 用 gdb 等 调试 器 ， 但 是 我 觉得 gdb 在 调试 线程 时 并 没有 那么 好 用 。 可 
能 是 我 孤 陋 寡 闻 ， 如 果 有 读者 精通 使 用 调试 器 调试 线程 ， 还 望 不 音 赐 教 。 

那么 我 是 如 何 调试 的 呢 ? 说 起 来 不 怕人 笑话 ， 我 是 用 原始 的 printf 方法 调试 的 。 使 用 这 种 方 
法 时 需要 注意 以 下 几 点 。 
第 1 点 是 调试 的 输出 应 输出 到 stderr (标准 错误 输出 )， 这 样 程序 本 身 的 输出 与 调试 的 输出 
就 可 以 区 分 开 来 。 比 如 下 面 这 条 命令 能 够 统计 标准 输出 的 行 数 、 字 数 和 单词 数 ， 而 调试 的 输出 会 显 
示 在 控制 台 (console) E. 

























































































$ a.out | wc 








如 果 想 让 调试 输出 的 内 容 也 一 起 在 屏幕 上 滚动 ， 可 以 使 用 下 面 这 条 命令 把 标准 输出 和 标准 错误 
输出 的 内 容 混 合 在 一 起 显示 。 








$ a.out |& lv 
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第 2 点 是 需要 有 fprintf 这 样 的 功能 来 输出 想 在 调试 器 中 查看 的 值 。 比 如 ， 当 你 想 检 查 结构 
体 的 成 员 是 否 被 初始 化 ,或 者 是 否 按照 正确 的 顺序 运行 了 处 理 时 ,使 用 fprintf 的 sp 格式 化 输 
出 符 就 很 方便 。%p 是 用 于 显示 指针 地 址 的 格式 化 输出 符 。 普 通 的 地 址 用 十 六 进 制 显示 ，NULL 的 值 
H “(nil)” a, 非常 好 用 。 
第 3 点 是 提交 代码 时 用 git diff 等 命令 检查 是 否 





























un 








enum strm value type { 
STRM VALUE BOOL, 















































已 全 部 删除 用 于 调试 输出 的 fprintf 语句 。 把 带 着 调试 STRM VALUE INT, 
输出 的 代码 提交 到 互联 网 上 ， 那 可 有 点 丢人 。 STRM VALUE FLT, 
STRM VALUE PTR, 
用 结构 体 表示 对 象 
typedef struct strm value { 
到 目前 为 止 ，Streem 的 数据 都 是 将 结构 体 和 字符 串 mM RU T 
转换 (cast) X void» 进行 传递 的 。 我 们 需要 注意 类 型 woa t o 
ERR, WMR T EFAA long i; 
但 是 作为 一 个 语言 处 理 器 还 是 应 该 把 对 象 实际 的 类 Men 
型 信息 管理 起 来 。Streem 中 使 用 图 2-47 那样 的 结构 体 来 m 
表示 对 象 。 ) strm value; 


Streem 中 表示 对 象 的 strm_value 是 一 个 简单 的 
结构 体 ， 由 表示 数据 的 union (联合 体 ) 和 表示 类 型 的 2-47 ”Streem 中 对 象 的 表示 方法 
type 成 员 构成 。C 的 数据 与 strm value 之 间 的 相互 转化 使 用 图 2-48 中 的 函数 。 我 会 在 2-6 节 之 
后 详细 介绍 这 些 函 数 的 使 用 方法 。 


























strm value strm ptr value (void*); 
strm value strm bool value (int); 
strm value strm int value(long); 
strm value strm flt value (double); 


#define strm null value() strm ptr value (NULL) 


void *strm value ptr(strm value); 
long strm value int(strm value); 
int strm value bool(strm value); 
double strm value flt(strm value); 


图 2-48 strm value 转换 函数 

除了 这 次 采用 的 结构 体 的 方式 之 外 ， 表 示 对 象 的 方法 还 有 Python 使 用 的 包括 数值 在 内 的 对 象 
全 部 用 指针 表示 的 方式 、LuaJIT 使 用 的 将 类 型 信息 用 浮 点 数 表 示 的 NaN Boxing 方式 、Ruby 使 用 的 
把 整数 搬入 到 指针 里 的 “ 带 标 签 的 指针 ”方式 等 。 这 些 技术 都 非常 有 趣 ， 今 后 我 会 详细 介绍 。 
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GC 











可 以 创建 对 象 之 后 ， 就 必须 能 够 回收 不 再 使 用 的 对 象 ， 也 就 是 进行 GC ( Garbage Collection, 
垃圾 回收 )。 

GC 的 实现 方法 有 好 几 种 ， 这 次 我 们 使 用 其 中 最 简单 的 1ibgo 方法 来 实现 。 

libgc 的 正式 名 称 是 Boehm-Demers-Weiser's GC， 是 一 个 垃圾 回收 库 。 原 则 上 C 和 C++ 程序 
中 只 需 链 接 这 个 像 是 有 魔法 一 样 的 库 ， 就 可 以 在 mal1loc 分 配 的 内 存 空间 不 再 使 用 时 自动 进行 回 
收 。 这 个 库 也 支持 多 线程 ， 因 此 可 以 用 在 Streem 语言 上 。 

在 使 用 libgc 之 前 ， 首 先 需要 安装 这 个 库 。 我 们 使 用 apt-get 等 包 管理 器 安装 libgc fü. TE Debian 
系列 Linux ( Ubuntu 等 ) 中 包 和 名 为 1ibgc-dev， 在 Red Hat 系列 (Fedora 等 ) 中 包 名 为 1ibgc-devel, 


















































$ apt-get install libgc-dev 

















安装 之 后 ， 在 程序 代码 的 前 面 调用 下 面 的 函数 ， 并 根据 表 2-2 修改 程序 。 





GC INIT 


这 里 需要 补充 说 明 一 下 calloc( 和 free() 32-2 使 用 libgc 时 的 修改 方法 
的 相关 内 容 。calloc () 这 个 函数 用 于 把 分 配 
的 内 存 空 间 清 零 , 在 Iibgc 中 没有 对 应 的 ^ mailoc(size) GC_MALLOC (size) 
数 。 但 是 GC_MALLOC () 能 够 保证 将 分 配 的 内 xrealloc(p,size) GC REALLOC(p, size) 
存 空 间 清 零 ， 所 以 我 们 只 需 调整 参数 即 可 , 在 ”calloc(n,size) GC MALLOC(n*size) 
进行 垃圾 回收 的 1ibgc 中 ，free () 本 来 就 是 “| 有 ee 人) SERE 
不 需要 的 ， 所 以 基本 上 会 删除 free () 的 调用 语句 。 

但 是 在 出 于 某 些 原因 需要 强制 释放 内 存 时 ， 就 需要 使 用 GC_FREE ()。 在 这 种 情况 下 ,使 用 者 
需要 注意 不 要 不 小 心 释放 了 仍 在 使 用 的 内 存 空间 。 

程序 修改 完 之 后 ， 打 开 Makefile 增加 链接 1ibgc 的 规则 就 可 以 了 。 很 简单 吧 。 

当前 我 们 使 用 Libgec 进行 垃圾 回收 ,不 过 1ibgec 并 不 是 万 能 的 ， 也 存在 一 定 的 局 限 性 。 比 
如 ， 在 使 用 了 修改 指针 的 值 的 技巧 时 就 不 能 正确 地 进行 GC， 另 外 ， 因 为 内 部 利用 了 汇编 语言 ， 所 
以 很 难 支 持 所 有 平台 。 

Streem 对 象 不 可 变 的 特点 有 利于 实现 引用 计数 方式 的 GC 和 分 代 GC。 好 好 利用 这 一 点 ， 也 许 
能 开发 出 比 通用 的 1ibgc 更 为 高 效 的 GC。 我 们 把 这 个 课题 留 到 将 来 去 研究 。 




























































































被 “搁置 ”的 语法 分 析 也 取得 了 进展 








最 近 我 一 直 忙 于 事件 循环 的 开发 ， 于 是 语法 分 析 部 分 就 被 搁置 了 下 来 。 
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但 这 并 不 意味 着 语法 分 析 没 有 取得 任何 进展 ， 在 Streem 开发 初期 用 Go 语言 独自 开发 了 语言 处 
Jas (Streeem ) 的 Mattn( 松本 康 弘 ) 先生 等 很 多 人 都 向 我 发 送 了 Pull Request， 得 益 于 此 ，Streem 
实现 了 以 下 功能 。 








e 语法 树 的 生成 
e 简单 的 解释 器 














没有 我 的 主导 ， 也 没有 密切 的 交流 ， 在 这 样 的 情况 下 开发 还 能 不 断 地 向 前 推进 ， 这 着 实 让 我 感 
到 惊讶 。Streem 的 开发 屡屡 刷新 了 我 对 开源 的 认识 。 














小 结 


Streem 的 核心 实现 也 支持 了 多 线程 ， 语 言 的 完成 度 越 来 越 高 ， 但 还 是 没有 达到 实用 程度 。 接 下 
来 就 需要 把 语法 分 析 部 分 和 核心 部 分 组 合 到 一 起 ， 使 其 成 为 可 以 使 用 的 语言 。 敬 请 期 待 。 


时 光 机 专栏 
GC 程序 中 有 错误 
































本 节 是 2015 年 4 月 刊 中 刊登 的 内 容 ， 实 现 了 通过 事件 循环 进行 任务 处 理 的 多 线程 版 本 。 
这 次 是 通过 mutex 的 带 优先 级 的 队列 来 实现 的 。 实 际 上 这 部 分 内 容 后 来 因 引 入 了 无 锁 算法 等 
而 被 完全 替换 掉 了 ， 但 为 了 记录 当时 的 过 程 ， 成 书 时 我 还 是 选择 保留 了 下 来 。 
现在 重读 原稿 让 我 想起 了 调试 时 的 艰辛 ， 我 还 是 忍 不 住 发 牢骚 ; “多 线程 编程 的 调试 真是 太 
痛苦 了 !” 因 为 bug 的 发 生 与 运行 时 机 有 关 ， 所 以 很 难 查 明 问题 是 在 什么 样 的 状态 下 发 生 的 。 
为 了 了 解 程序 的 状态 ， 我 尝试 了 调试 器 ， 或 者 在 程序 中 插入 printf 语句 ， 这 样 一 来 运行 
时 机 不 一 样 了 ，bug 又 不 出 现 了 。 这 种 事情 经 常 发 生 ， 让 人 和 欲 哭 无 泪 。 虽 然 之 后 我 对 事件 循环 
做 了 很 多 改进 ， 但 老实 说 ， 我 现在 也 不 敢 保证 Streem 的 事件 循环 里 没有 bug。 
关于 1ibgc 的 使 用 ， 这 里 也 有 必要 再 补充 说 明 一 下 。 连 载 时 没有 表 2-2 那 种 关于 程序 修改 
的 说 明 。 我 记得 旧版 本 的 1ibgc 替换 了 malloc() 等 函数 的 实现 ， 只 要 链接 1ibgc 就 能 进行 
垃圾 回收 ， 所 以 没有 仔细 经 过 验证 就 落笔 了 。 

示例 程序 可 以 运行 ， 所 以 我 没有 注意 到 其 实 它 并 没有 进行 垃圾 回收 ， 而 是 做 了 内 存 的 分 
配 ， 完 全 没有 释放 这 些 内 存 。 只 是 因为 示例 程序 中 处 理 的 数据 不 是 很 多 ， 所 以 才 没 有 出 现 问 


题 。 真是 太 不 好 意思 了 o 
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本 节 将 通过 Streem 的 实现 来 介绍 内 存 访问 的 详细 内 容 。 在 多 核 环 境 中 ， 有 效 利 用 组 
是 


















































存 是 特别 重要 的 。 另 外 ， 我 们 还 将 通过 语言 的 设计 来 介绍 符号 ( symbol ) 这 一 数据 


在 2-5 节 中 ， 为 了 有 效 利 用 多 核 ， 我 让 Streem 文 持 了 多 线程 ， 但 我 发 现 了 一 个 问题 。 在 2-5 节 
的 实现 中 ， 当 管道 中 有 任务 排队 时 ,为 了 最 大 限度 地 利用 多 核 而 把 各 个 任务 分 配 到 了 其 他 线程 去 
执行 但 是 仔细 想 想 ， 这 并 不 是 一 种 很 妥当 的 做 法 。 因 为 我 发 现 ， 虽然 在 任务 数量 不 多 时 没什么 
影响 ， 但 是 当 任 务 数量 较 多 时 ， 某 个 意 想 不 到 的 地 方 可 能 就 会 给 运行 性 能 带 来 影响 。 为 了 能 够 使 
Streem 在 今后 不 断 改善 ， 这 次 我 们 先 来 考察 一 下 这 个 问题 。 











m 有 效 利用 缓存 


这 里 我 们 要 讨论 的 是 内 存 访问 速度 的 问题 。 我 们 平时 在 写 代码 时 ， 基 本 上 不 会 在 意 内 存 访 问 花 
了 多 少时 间 ， 甚 至 也 不 会 在 意 是 否 给 变量 分 配 了 内 存 、 是 否 分 配 了 CPU 寄存 器 等 ， 但 是 对 CPU 来 
说 ， 从 不 同 的 地 方 取出 数据 的 差别 是 非常 大 的 。 

CPU 只 需 用 1 个 时 钟 周期 即 可 从 寄存 器 中 取出 数据 。2 GHz 的 CPU 的 1 个 时 钟 周期 是 0.5 nso 
可 同样 的 数据 如 果 是 在 主 存 上 ， 就 需要 访问 外 部 总 线 ， 从 速度 慢 但 容量 大 的 内 存 传送 数据 ， 因 此 花 
费 的 时 间 要 多 得 多 ( 几 百 倍 )。 

在 这 期 间 ，CPU 拿 不 到 需要 的 数据 只 能 等 待 。 这 就 意味 着 每 次 从 主 存 取出 数据 时 ，CPU 只 能 
发 挥 出 几 百 分 之 一 的 性 能 。 






































用 缓存 高 速 访问 数据 


这 样 一 来 就 白白 浪费 了 CPU 的 性 能 ， 所 以 很 久之 前 CPU 就 设置 了 缓存 来 解决 这 个 问题 。 

“缓存 ”的 英语 是 “cache”"， 和 现金 “cash” 稍 有 不 同 。 据 说 “cache” 这 个 词 原 本 在 法 语 中 是 
“隐秘 的 场所 ”“ 储 藏 室 ” 的 意思 ， 后 来 意思 发 生 了 改变 ， 在 计算 机 领域 表示 “临时 保存 取出 的 数据 
(或 者 频繁 访问 的 数据 ) 的 存储 空间 ”。 

具体 来 说 ，CPU 中 设置 了 与 其 直接 相连 的 、 容 量 虽 小 但 速度 很 快 的 存储 空间 ， 从 内 存 中 取出 
的 数据 也 会 保存 在 这 个 缓存 空间 里 。 当 再 一 次 访问 同一 个 地 址 的 数据 时 ， 就 会 直接 使 用 缓存 中 的 数 


















































据 ， 而 不 用 去 访问 速度 缓慢 的 主 存 ， 这 样 就 可 以 避免 访问 了 
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FE 存 所 引起 的 性 能 低下 的 问题 。 





设置 多 级 缓存 
不 过 我 们 无 法 配置 较 大 容量 的 高 速 缓存 。 现 在 我 手头 大 致 的 访问 时 间 
的 计算 机 (CPU : Intel Core i7 2620M ) 仅 搭 载 了 两 个 容量 CPU 寄存 器 : 1 时 钟 周期 


为 64 KB 的 缓存 ， 一 个 用 于 数据 ， 一 个 用 于 命令 。 这 个 容 





量 在 2015 年 最 新 的 CPU 上 也 没有 发 生 改变 。 


于 是 ,为 了 尽 可 能 地 减少 对 缓存 上 没有 的 数据 的 访问 ， 10 时 钟 周期 
现在 的 CPU 都 搭载 了 多 级 缓存 (图 2-49 )。 比 如 Core i7 搭 
载 了 64 KB 的 一 级 (L1) 缓存 ， 还 搭载 7 没有 LIl 那么 快 但 

















L1$ ( 64 KB ) 4 时 钟 周期 


























L3$ (4 MB ) 40-1008] 4/8] 8 


i 





容量 更 大 的 512 KB 的 二 级 (L2) 缓存 ， 以 及 容量 进一步 增 mem (16 GB) | 200 时 钟 周期 


大 到 4 MB 的 三 级 (L3) 缓存 。 


很 多 程序 都 有 频繁 访问 同一 地 址 的 数据 的 特点 ， 有 了 


4 MB 的 缓存 ， 很 可 能 不 用 访问 


数据 更 新 时 的 问题 


在 多 核 环 境 下 ， 通 常 每 个 





主 存 就 能 完成 处 理 。 





内 核 都 拥有 独立 的 LI1 缓存 


然后 多 个 内 核 之 间 共 享 L2 和 L3 缓存 。 

















2000 万 时 钟 周期 


图 2-49 多 级 缓存 

本 图 中 的 时 钟 周期 只 是 估算 而 已 。 访 问 时 间 在 每 
个 CPU 上 都 不 同 ， 而 且 还 会 受 时 钟 周期 之 外 的 因 
素 影响 ， 因 此 很 难 表示 出 精确 的 数值 。"L1$” 中 
的 “$” 是 “缓存 ”的 缩写 , 它 出 自 于 和 cache ( 组 
存 ) 发 音 相同 的 cash ( 现金 ) 一 词 


, 


时 ， 为 了 之 后 也 能 读 取 到 最 新 数据 ， 我 们 需要 


把 数据 写 回 到 主 存 。 另 外 ， 如 果 其 他 内 核 更 新 了 内 存 上 的 数据 ,那么 当前 缓存 上 的 数据 就 会 成 为 无 
意义 的 旧 数 据 。 这 时 就 需要 让 旧 的 缓存 失效 ， 然 后 重新 读 取 数 据 。 

这 其 实 是 一 个 非常 复杂 的 问题 ， 菲 尔 ' 卡尔 顿 (Phil Karlton ) 就 说 过 :“ 计 算 机 科学 有 两 大 难 
题 ， 分 别 是 缓存 失效 和 命名 。” 这 里 不 打算 深入 探讨 这 个 难题 ， 我 只 是 想 告 诉 大 家 ， 看 上 去 很 简单 





的 内 存 访问 ， 其 实在 CPU 内 部 进行 着 非常 复杂 的 处 理 。 


对 管道 的 再 次 思考 

















让 我 们 回 到 原来 的 话题 。 本 节 开 头 提 到 过 ， 当 管道 中 有 任务 排队 时 ， 为 了 最 大 限度 地 利用 多 
核 ， 会 把 各 个 任务 分 配 到 其 他 线程 执行 。 这 样 一 来 ， 流 转 在 管道 中 的 数据 就 会 被 不 同 的 线程 访问 ， 




















从 而 减少 了 有 效 利 用 高 速 的 Ll 
也 就 是 说 ， 要 想 有 效 利用 P 








缓存 的 机 会 。 

















ii 





判 极其 奇 刻 的 缓存 容量 ， 就 需要 尽量 从 同一 个 内 核 去 访问 同一 个 数 


据 。 如 果 从 多 个 内 核 访问 同一 个 数据 ， 就 会 在 宝贵 的 L1 缓存 中 保存 重复 的 数据 ， 先 前 访问 的 数据 
就 会 被 移出 缓存 。 这 实在 是 大 浪费 资源 了 。 
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这 种 现象 在 多 个 管道 工作 时 会 更 加 明显 





现在 运行 在 Streem 中 的 还 是 非常 简单 的 管道 ， 没 有 


太 多 浪费 缓存 的 情况 ， 如 果 管 道 变 多 ， 这 个 问题 就 会 逐渐 显露 出 来 。 


在 同一 个 内 核 中 运行 速度 更 快 


我 们 来 看 一 下 图 2-50(1) 这 个 管道 。 最 
开始 的 任务 是 从 标准 输入 读 取 !1 行 字 符 捉 ， 
读 取 的 字符 串 数 据 经 过 L1 一 L2 L3 组 
存 ， 最 终 被 写 人 主 存 (图 2-50(2) )。 
将 字符 串 转 换 为 大 写字 母 的 下 一 个 任 
务 如 果 在 其 他 线程 执行 ( 也 就 是 说 很 可 能 
会 在 其 他 内 核 执行 )， 那 么 数据 就 不 会 存在 
于 这 个 内 核 的 Ll 缓存 中 ， 所 以 只 好 去 L2 
缓存 中 寻找 数据 。 在 大 多 数 情况 下 ，L2 组 
存 会 在 内 核 之 间 共 享 ， 所 以 数据 还 有 可 能 
残留 在 L2 缓存 中 ， 这 时 从 2 缓存 中 取出 
数据 就 行 了 。 但 是 如 果 有 其 他 管道 在 同时 
运行 ， 那 么 L2 缓存 或 许 也 会 被 数据 占 满 ， 
这 时 就 要 到 L3 缓存 去 找 ， 如 果 L3 缓存 也 
满 了 ， 就 需要 去 访问 主 存 。 

但 是 ， 在 尽量 把 同 
















































































要 意识 到 缓存 的 存在 


现代 CPU 上 运行 的 软件 的 性 能 与 缓存 








(1) 管道 
stdin | (is| x.upcase) | stdout 
读 取 一 >  upcase — 5l 





(2) 改进 前 
读 取 一 Upcase — 5S 
CPU CPU1 CPU2 CPUS 








cache L1$,L2$,L3$ T2 EIS TAS 1518 
(3) 改进 后 
读 取 一 upcase — 5 
GEU CPUT EEUN! CPUN 
Cache EIS ES ES LS wi 
图 2-50 ”管道 上 的 任务 和 缓存 


个 管道 的 任务 分 配给 同一 个 内 核 执行 的 情况 下 ， 对 缓存 的 访问 就 会 按照 
图 2-50(3) 进行 。 如 果 任 务 都 在 同一 个 内 核 执行 ,那么 数据 就 很 可 能 保存 在 L1 缓存 中 ， 
满 ， 也 许 只 访问 高 速 的 L1 缓存 就 能 完成 处 理 。 








只 要 缓存 未 


的 使 用 有 着 很 大 的 关系 。 对 软件 来 说 ， 对 缓存 的 访问 是 




















“透明 的 "， 除 了 性 能 之 外 ， 很 难 在 其 他 方面 

















感受 到 缓存 的 存在 。 但 是 对 性 能 来 说 ， 情 况 却 大 不 相 





同 。 如 果 没 能 有 效 使 用 缓存 ， 访 问 速度 可 能 就 会 慢 上 几 十 倍 。 在 开发 21 世纪 高 速 运行 的 软件 时 ， 


我 们 不 能 忽视 缓存 的 作用 。 











可 是 ,灵活 使 用 肉眼 看 不 见 的 缓存 是 非常 困难 的 。 特 别 是 在 与 线程 纠缠 在 一 起 的 情况 下 ， 要 理 
解 缓存 的 状态 简直 就 超过 了 人 类 的 理解 范围 。 即 使 依靠 推测 去 修改 代码 ， 也 很 难 使 性 能 得 到 改善 。 
这 时 需要 做 的 是 测量 。 正 确 的 测量 才 是 改善 性 能 最 好 的 办 法 。Linux 上 测量 缓存 活动 的 工具 有 
oprofile 和 cachegrind 等 。 这 些 工 具 不 仅 可 以 测量 某 个 函数 花费 了 多 少时 间 ， 还 可 以 报告 各 个 命令 的 缓存 




































































缺失 所 导致 的 延迟 等 。 关 于 这 些 工具 的 使 用 方法 ， 我 会 在 将 来 讲解 Streem 的 性 能 改善 时 一 并 进行 说 明 。 
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m 符号 的 处 理 


接 下 来 是 有 关 语 法 的 内 容 。 
Ruby 中 有 符号 这 种 数据 类 型 ， 用 于 表示 变量 名 和 标识 符 ， 有 自己 的 名 字 。 从 这 个 角度 来 看 ， 
符号 与 字符 串 很 相似 ， 不 过 也 有 几 点 不 同 ， 如 下 所 示 。 





























e 同一 个 名 字 的 符号 只 能 有 一 个 
e 能 够 快速 判断 是 否 一 致 ( 不 需要 检查 内 容 ) 
e 无 法 像 Ruby 的 字符 串 那 样 修 改 内 容 















































Ruby 利用 了 符号 速度 快 的 特点 ， 在 指定 方法 名 、 变 量 名 以 及 关键 字 参 数 等 场景 中 广泛 使 用 了 符号 。 
Ruby 的 符号 是 从 Lisp 继承 过 来 的 。 在 开发 Ruby 之 前 ， 我 便 受到 了 Lisp 很 大 的 影响 ， 所 以 引 
入 符号 也 是 顺理成章 的 事情 。 























Lisp 的 符号 


在 1958 年 诞生 的 Lisp 中 ， 符 号 与 列表 都 是 Lisp 基本 数据 类 型 的 一 种 。 据 说 最 早 版 本 的 Lisp 中 
就 已 经 有 符号 了 ， 那 时 反而 还 没有 字符 串 ， 现 在 我 们 使 用 的 字符 串 在 当时 都 是 用 符号 代替 的 ， 所 以 
符号 是 比 字符 串 更 古老 的 一 种 数据 类 型 。 


在 Lisp 中 ,符号 被 用 在 了 各 种 各 样 的 场景 中 。Lisp — 7, 使 用 Disp 开 发 的 阶乘 程序 
(defun fact (n) 















































的 程序 本 身 虽 然 可 以 用 列表 结构 来 表示 ， 但 其 中 出 现 (de qa 
的 变量 名 和 函数 名 等 与 名 称 有 关 的 内 容 都 是 用 符号 表示 的 T ER 





(图 2-51)， 可 见 符号 在 Lisp 中 的 重要 性 。 

















底 纹 的 部 分 是 符号 











8gJ5& x B ER] SE 
初学 者 的 困惑 图 2-51 Lisp 程序 中 的 符号 


于 是 Ruby 也 引入 了 符号 ， 但 是 一 些 不 了 解 Lisp 的 Ruby 学 习 者 表示 难以 理解 字符 串 和 符号 为 
何不 同 。 

对 我 来 说 符号 和 字符 串 不 同 是 理所当然 的 事情 ， 所 以 一 开始 我 不 能 理解 为 何 有 人 对 此 表示 不 
满 。 当 我 多 次 听 过 他 们 的 意见 之 后 ， 就 渐渐 地 了 解 了 他 们 不 满 的 原因 。 

也 就 是 说 ， 先 不 考虑 内 部 数据 的 结构 ， 从 表面 来 看 ， 字 符 串 和 符号 都 是 “表示 字符 序列 的 内 
容 ”。 从 这 个 角度 来 看 ,符号 只 不 过 是 不 能 修改 的 字符 串 ， 但 支持 的 操作 (方法 ) 却 少 了 很 多 ,这 
让 人 感觉 很 不 方便 。 我 收 到 了 很 多 “用 起 来 不 方便 ， 请 添加 和 字符 串 同样 的 方法 吧 ”“ 统 一 字符 串 
和 符号 吧 ” 之 类 的 请 求 ， 那 时 我 才 明白 ， 原 来 大 家 对 字符 串 和 符号 的 理解 与 我 完全 不 同 。 

之 所 以 会 发 生 这 样 的 “误解 ”或 者 说 “ 认 知 分 歧 ”， 是 因为 在 没有 像 Ruby 那样 受到 Lisp 强烈 影 


响 的 语言 中 ， 是 没有 出 现 符号 这 种 概念 的 ， 但 这 并 不 是 说 这 些 语言 的 内 部 就 不 需要 符号 这 样 的 东西 






























































o 


110 | 第 2 章 新 语言 Streem 的 设计 与 实现 


其 他 语言 中 相当 于 符号 的 概念 


那么 ， 那些 没 有 符号 的 语言 是 如 何 实现 符号 的 功能 的 呢 ? 

最 简单 的 方法 是 用 普通 的 字符 串 代 替 所 有 符号 。 如 果 不 在 意 性 能 ， 也 可 以 使 用 普通 的 字符 串 进 
行内 部 标识 符 (APK) 的 管理 ， 操 作 也 没有 那么 困难 。 

使 用 普通 的 字符 串 作 为 标识 符 的 最 大 缺点 是 ， 在 进行 比较 时 ， 花 费 的 时 间 与 字符 串 的 长 度 成 正 
比 。 要 判断 字符 串 "abca" 和 "abce" 的 不 同 ， 就 需要 依次 检查 每 个 字符 ， 直 到 第 4 个 字符 。 如 果 
用 普通 的 字符 串 实 现 像 标识 符 这 种 需要 频繁 去 比较 的 东西 ， 就 很 容易 出 现 性 能 问题 。 

于 是 Python 等 语言 便 没 有 引入 符号 的 概念 ， 而 是 在 字符 串 上 下 了 一 番 功 夫 ， 以 此 来 避免 性 能 问题 。 

具体 来 说 ， 满 足 一 定 条 件 的 字符 串 在 拥有 同样 内 容 时 返回 同一 个 对 象 Cintern 化 )， 这 样 就 可 以 
在 不 看 内 容 的 情况 下 进行 一 致 性 检查 了 。 

所 谓 “ 一 定 条 件 ”， 在 Python 中 是 指 以 下 两 个 条 件 中 的 任意 一 个 。 











































































































e 一 定 长 度 ( 默认 是 20 字符 ) 以 下 的 字符 串 字 面 量 
e 显 式 声明 了 intern 的 字符 串 


























而 Lua 语言 则 是 在 原则 上 对 所 有 字符 串 进行 符号 化 ， 也 就 是 说 ， 内 容 相同 的 字符 串 全 部 是 同一 个 对 象 。 
Python 和 Lua 之 所 以 能 做 到 这 一 点 ， 是 因为 Python 和 Lua 中 字符 串 是 不 变 的 ， 也 就 是 说 ， 内 
容 是 不 能 修改 的 。 像 Ruby 这 样 的 可 以 修改 字符 串 内 容 的 语言 是 不 能 这 么 做 的 。 真 是 让 人 难以 选择 。 














Streem 中 实现 符号 功能 的 方法 


E> 
P" 
= 
«| 
将 
= 
bx 
> 
= 
mb 
CC 
poni 
W 
Till 


我 们 回 到 Streem 的 话题 。Streem 这 样 的 语言 也 需要 符号 这 种 概念 
设计 上 的 一 项 重要 决策 。 

是 像 Ruby 那样 引入 独立 的 符号 数据 类 型 ， 还 是 像 Python 和 Lua 那样 在 使 用 字符 串 的 基础 上 设 
法 发 挥 符号 的 作用 呢 ? 

实际 上 Streem 有 一 个 设计 原则 ， 就 是 如 果 不 是 特别 想 用 ， 并 且 也 没有 什么 明显 的 技术 优势 ， 
就 选择 与 Ruby 不 同 的 做 法 。Streem 的 对 象 原则 上 不 可 修改 、 代 码 块 结构 中 使 用 “{ } ”等 都 是 这 个 
设计 原则 的 体现 。 

基于 这 个 原则 ， 我 打算 在 符号 的 设计 上 采用 与 Ruby 不 同 的 做 法 。 幸 运 的 是 Streem 中 的 字符 串 
是 不 可 修改 的 ， 所 以 我 决定 让 它 和 Python 一 样 使 用 字符 串 来 发 挥 符号 的 作用 。 


















































修改 字符 串 生 成 函数 


具体 的 做 法 是 修改 Streem 的 字符 串 生 成 函数 ， 让 有 同样 内 容 的 字符 串 成 为 同一 个 字符 串 。 
新 的 字符 串 生 成 步 又 如 下 所 示 。 
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1. 准 备 一 个 保存 字符 串 对 象 的 散 列表 。 散 列表 的 键 是 指针 (const char*) 和 长 度 (size t), 
值 是 字符 串 对 象 (struct strm string*) 


2. 生 成 字符 串 时 首先 根据 传 来 的 数据 ( 指针 和 长 度 ) 查找 散 列 表 ， 如 果 找到 了 对 象 ， 就 返回 这 





































































































3. 如 果 没 找到 对 象 ， 则 生成 字符 串 对 象 ， 并 保存 到 散 列 表 中 











前 面 的 处 理 都 不 是 很 难 ， 实 际 按照 这 个 步 又 编写 的 生成 字符 串 对 象 的 函数 Strm str new() 
如 图 2-52 所 示 。 








#include "khash.h" lege e gp 
key.len - len; 


k - kh put(sym, sym table, key, &ret); 


/* 散 列 表 的 定义 */ 
































KHASH INIT(sym, struct sym key, /* 存在 : ret == 0 */ 

struct strm string*, 1, sym hash, sym eq); /* 不 存在 : 可 以 插入 到 k 的 位 置 */ 
/* 保存 符号 的 散 列 表 */ if (ret == 0) { /* found */ 
static khash t (sym) *sym table; /* 如 果 找 到 了 对 象 则 返回 该 对 象 */ 

return kh value(sym table, k); 

/* 字符 串 对 象 的 分 配 */ } 
static struct strm string* else { 
strm str alloc(const char *p, size t len) /* 如 果 没 有 找到 则 分 配对 象 */ 
{ Struct strm string *str; 


struct strm string *str 
- malloc(sizeof (struct strm string)); /* allocate strm string */ 
if (readonly data p(p)) { 























Str-»ptr - p; /* 如 果 是 只 读 空间 则 不 需要 复制 */ 
SEE = ler; str = strm str alloc(p, len); 
Str-»type - STRM OBJ STRING; ) 
else { 
return str; /* 复制 字符 串 数 据 */ 
} char *buf = malloc (len) ; 
if (p) ( 
/* 字符 串 对 象 的 生成 函数 */ memcpy (buf, p, len); 
struct strm string* } 
strm str new(const char *p, size t len) else { 
( memset(buf, 0, len); 
khiter t k; } 
struct sym key key; Str - strm str alloc(buf, len); 
int ret; ) 
/* 将 生成 的 对 象 添加 到 符号 表 */ 
/* 符号 表 的 初始 化 */ kh value(sym table, k) = str; 
if (!sym table) { return str; 
sym table = kh init (sym); } 


} ) 


/* 是 否 存在 于 符号 表 中 */ 














图 2-52 支持 符号 特性 的 strm str new() 
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需要 注意 的 是 ， 这 里 使 用 了 khash 库 来 实现 散 列 表 。 使 用 khash 库 时 ， 只 需 包 含 头 文件 就 可 
以 使 用 散 列 表 。 我 们 也 可 以 使 用 宏 来 实现 模版 类 型 这 种 功能 ， 可 以 把 任意 类 型 当 作 键 和 值 。 

















线程 问题 


这 样 一 来 ，Streem 就 可 以 和 Lua 一 样 使 用 字符 串 来 发 挥 符 号 的 作用 了 ， 而 且 系 统 会 保证 内 容 相 
同 的 字符 串 是 同一 个 对 象 。 
但 其 实 这 个 实现 还 不 完整 ， 至 少 还 存在 两 个 问题 。 
首先 是 支持 多 线程 的 问题 。 图 2-52 的 程序 中 包含 查看 和 添加 符号 表 数 据 的 代码 ， 如 果 多 个 线 
程 同 时 访问 符号 表 ， 在 最 坏 的 情况 下 数据 会 遭 到 破坏 ， 因 此 我 们 需要 使 用 并 发 控制 等 方法 支持 多 线 
程 访问 。 
我 想到 了 两 个 解决 办 法 。 一 个 办 法 是 用 mut ex 围 住 访问 符号 表 的 代码 ( 具体 指 kh_put 的 调 
] )。 HR 1ock/unlock 操作 每 次 至 少 耗费 100 ns， 但 还 算 在 误差 范围 内 。 这 种 做 法 只 需 添加 几 
行 代码 即 可 ， 可 以 快速 解决 这 个 问题 。 
男 一 个 办 法 是 只 在 事件 循环 开始 之 前 ， 也 就 是 多 线程 还 没有 运行 的 时 候 向 符号 表 添 加 数据 ， 在 
多 线程 运行 时 不 向 符号 表 添 加 数据 。 这 种 做 法 由 于 不 需要 进行 并 发 控制 ， 所 以 在 多 线程 环境 下 不 会 
对 性 能 造成 影响 (或 者 说 影响 较 小 )。 
实际 上 ， 会 成 为 符号 的 字符 串 一 般 是 在 程序 的 初始 化 阶段 创建 的 ， 所 以 我 感觉 这 种 做 法 可 行 ， 
只 是 在 实现 上 有 些 复杂 ， 而 且 即 使 是 同一 个 字符 串 ， 也 存在 会 添加 到 符号 表 和 不 添加 到 符号 表 两 种 
情况 ， 这 又 需要 增加 相应 的 处 理 。 
比较 下 来 还 是 第 一 个 办 法 占据 绝对 优势 ， 所 以 这 次 我 决定 采用 第 一 个 办 法 。 不 过 考虑 到 接 下 来 
要 解决 的 问题 ， 可 能 还 需要 在 将 来 探讨 其 他 办 法 ， 特 别 是 后 一 个 办 法 。 








































































































符号 垃圾 问题 


第 二 个 问题 是 “符号 垃圾 问题 "”。 每 次 处 理 字 符 串 时 ， 所 有 字符 串 都 会 被 添加 到 符号 表 中 。 如 
果 有 大 量 内 容 不 同 的 字符 串 出 现 ， 它 们 就 都 会 被 添加 到 符号 表 中 ， 这 就 可 能 导致 内 存 不 足 。 

Ruby 的 字符 串 与 符号 分 离 ， 理 论 上 不 容易 发 生 这 种 问题 ,但 也 被 发 现 了 漏洞 ， 那 就 是 允许 
攻击 者 通过 外 部 输入 生成 符号 ， 从 而 大 量 消耗 内 存 ， 妨 碍 程序 运行 。 因此， 在 2014 年 12 月 发 布 
的 Ruby 2.2 版 本 中 ， 符 号 也 成 为 了 GC 的 对 象 。 在 Ruby 22 以 后 的 版 本 中 ， 不 使 用 的 符号 会 被 自动 
回收 。 

当然 ，Streem 也 有 发 生 同样 问题 的 风险 ， 将 来 也 需要 用 某 种 方法 解决 。 

不 过 这 个 问题 不 需要 马上 解决 ， 这 里 我 们 只 是 探讨 一 下 而 已 ， 有 具体 的 实现 则 当成 今后 的 课题 。 
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符号 的 GC 














那么 将 来 在 解决 符号 垃圾 问题 时 ， 有 哪些 方法 可 供 参 考 呢 ? 
其 中 一 个 方法 是 像 Ruby 一 样 把 符号 当成 GC 的 对 象 。 在 这 种 情况 下 ， 将 符号 表 中 对 字符 串 的 
作为 弱 引 用 (虽然 是 引用 ， 但 不 会 成 为 GC 保护 对 象 )， 在 字符 串 被 回收 时 从 符号 表 中 去 除 。 
另 一 个 方法 是 像 Python 一 样 只 把 符合 条 件 的 字符 串 添加 到 符号 表 ， 以 避免 符号 表 过 大 。 前 面 
提 到 过 的 把 字符 串 分 为 添加 到 符号 表 和 不 添加 到 符号 表 就 是 指 这 种 方法 。 

但 这 种 方法 有 几 个 缺点 。 首 先 ， 存 在 不 添加 到 符号 表 的 字符 串 就 意味 着 可 能 需要 频繁 比较 字符 
串 的 内 容 ， 这 就 失去 了 符号 自身 的 优点 。 

再 者 ， 光 靠 这 种 做 法 无 法 完全 避免 符号 表 过 大 的 问题 。 实 际 上 ，Python 也 会 把 已 经 添加 的 字符 
串 当成 GC 的 对 象 。 

考虑 到 这 些 ， 就 可 以 明白 将 来 解决 符号 垃圾 问题 时 需要 实现 符号 的 GC。 

不 过 现在 Streem 的 内 存 管理 使 用 了 1ibgc， 所 以 不 需要 担心 动态 分 配 (malloc) 的 内 存 空 间 
的 释放 问题 ， 但 是 要 实现 前 面 提 到 的 弱 引 用 等 就 很 困难 了 。 

要 实现 符号 的 GC， 就 需要 进行 粒度 更 细 的 控制 ， 因 此 就 需要 放弃 1ibgc， 去 实现 自己 的 GC。 
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小 结 





本 节 探 讨 了 两 个 主题 : 缓存 与 内 存 访 问 的 成 本 ， 以 及 编程 语言 中 符号 的 设计 。 

让 我 觉得 有 趣 的 是 ， 像 内 存 访 问 这 种 稀 松 平常 的 事情 ， 其 背后 也 有 平时 看 不 到 的 缓存 机 制 在 文 
撑 。 另 外 ， 缓 存 可 能 会 使 软件 性 能 发 生 几 倍 甚至 几 十 倍 的 变化 ， 这 一 点 也 让 我 觉得 非常 有 意思 。 

就 连 编 程 语言 中 的 标识 符 ( 名 称 ) 的 处 理 等 看 起 来 非常 琐碎 的 内 容 ， 也 需要 经 过 多 方面 的 考 
虑 。 这 也 是 语言 设计 上 不 太 为 人 所 知 的 有 意思 的 地 方 。 
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不 同年 龄 段 的 人 的 认 知 偏差 











本 节 是 2015 年 5 月刊 中 刊登 的 内 容 。 现 代 计算 机 的 复杂 程度 远 远 超出 了 我 们 的 想象 ， 缓 
存 带 来 的 运行 效果 的 变化 就 是 一 个 例子 。 
在 我 们 使 用 的 编程 模型 中 ， 只 能 把 数据 看 作 二 次 存储 空间 中 的 文件 ， 或 者 一 次 存储 空间 的 
堆 或 变量 ,但 实际 上 变量 有 的 被 分 配 到 了 寄存 器 中 ， 有 的 被 分 配 到 了 内 存 中 ， 表 面 上 看 起 来 完 
全 相同 ， 但 访问 时 间 却 相差 甚 远 。 另 外 ， 在 访问 被 分 配 到 内 存 的 变量 和 堆 时 ， 是 否 使 用 缓存 也 
会 给 访问 时 间 带 来 极 大 的 影响 。 开 发 时 能 否 注意 到 这 一 点 将 会 大 大 影响 软件 的 性 能 。 

话 虽 如 此 ， 但 现在 Streem 的 实现 还 没有 把 效率 纳入 考量 ，Streem 还 没 到 使 用 缓存 来 提高 
性 能 的 阶段 ， 所 以 大 家 把 本 节 内 容 当 成 软件 性 能 的 相关 读物 更 为 合适 。 

针对 符号 这 个 主题 ， 我 这 里 再 补充 几 句 。 正 文中 也 写 到 了 ， 对 于 受到 Lisp 强烈 影响 的 我 来 
说 ， 符 号 和 字符 串 不 同 是 理所当然 的 ， 我 对 此 从 来 没有 质疑 过 ， 但 是 不 太 了 解 Lisp 的 “年 轻 ” 
一 代 却 觉得 三 者 的 区 别 没 有 任何 意义 ， 这 让 我 觉得 很 有 意思 。 各 自 背景 的 不 同 导致 了 认 知 差 
异 ， 这 次 的 小 插曲 就 是 这 种 认 知 差异 的 一 个 典型 例子 。 随 着 时 代 和 背景 的 变化 ， 常 识 也 会 发 生 
变化 ， 我 切身 感受 到 了 这 一 点 。 





















































































































































































































































































































































-/ ”转换 为 抽象 语法 树 





本 节 将 修改 Streem 的 语法 分 析 器 ， 无 论 如 何 也 要 让 Streem 作 为 一 门 语言 运行 起 来 。 
我 将 把 语法 分 析 的 结果 转换 为 抽象 语法 树 ， 虽 然 进 一 步 转换 为 虚拟 机 的 机 器 码 会 提高 
程序 执行 效率 ， 但 是 这 里 我 还 是 选择 先 让 语言 运行 起 来 。 



























































虽然 Streem 的 内 部 结构 一 点 点 地 实现 了 ， 但 它 还 是 不 能 作为 一 个 语言 运行 起 来 ， 所 以 这 次 我 
想 修改 Streem 的 语法 分 析 器 ， 无 论 如 何 也 要 让 它 达 到 能 运 s 

在 这 之 前 我 要 先 改 进 一 下 2-6 节 的 实现 。 在 2-6 节 ， 为 了 支持 符号 语法 ， 我 把 所 有 的 字符 串 都 
添加 到 了 符号 表 中 ， 让 内 容 相同 的 字符 串 成 为 同一 个 对 象 。 

但 在 经 过 多 次 测试 后 ， pa CM 因为 把 所 有 字符 串 都 添加 到 符号 表 之 后 ， 随 着 
读 人 数据 的 增多 ， 内 存 的 使 用 量 也 会 变 得 越 来 越 大 。 

在 2-6 节 提 到 过 ，Lua 也 采用 了 同样 的 做 法 所 以 我 觉得 应 该 没什么 问题 ， 不 过 现在 看 来 还 是 
亲自 验证 一 下 比较 靠 谱 。 














支持 符号 语法 的 新 方法 


于 是 我 决定 按照 以 下 方式 来 实现 。 

首先 ， 在 进入 事件 循环 之 前 ， 也 就 是 在 单线 程 运行 时 ， 由 于 不 用 担心 并 发 控制 的 问题 ， 所 以 在 
生成 字符 串 时 将 字符 串 添 加 到 符号 表 。 不 过 这 里 参考 了 Python 的 做 法 ， 不 将 超过 一 定 长 度 ( 暂 定 
为 64 个 字符 以 上 ) 的 字符 串 添 加 到 符号 表 。 

当 事 件 循 环 开 始 ， 进 入 多 线程 模式 后 ， 为 了 避免 竟 争 ，Streem 在 生成 字符 串 时 不 去 访问 符号 
表 ， 而 是 每 次 生成 一 个 新 的 字符 串 。 在 这 种 情况 下 ， 即 使 字符 串 内 容 相 同 ， 对 象 也 不 同 。 

但 有 时 出 于 某 些 原因 还 是 需要 用 到 符号 化 的 字符 串 ， dao 
intern () 来 获取 符号 化 的 字符 串 。 这 个 函数 在 被 调用 时 会 并 发 地 访问 符号 表 ， 返 回 符号 化 的 字 
TER S 

经 过 这 一 系列 修改 ， 不 再 是 所 有 的 字符 串 都 会 被 符号 化 了 ， 因 此 我 们 还 需要 修改 字符 串 比 较 的 
部 分 。 之 前 只 需要 比较 字符 串 的 地 址 就 能 判断 字符 串 是 否 相 同 ， 而 今后 就 需要 比较 没有 符号 化 的 字 
符 串 的 内 容 了 ( 图 2-53 )。 这 种 做 法 的 关键 之 处 在 于 为 符号 化 的 字符 串 设置 STRM STR INTERNED 
标志 位 。 


















































116 | 第 2 章 新 语言 Streem 的 设计 与 实现 


Ime 
perm etr (mn fel, Sern S 
{ 
/* 如 果 地 址 相同 则 字符 串 相同 */ 
a (El c 19) alevwhse Neda 
/* 如 果 两 个 字符 串 都 已 符号 化 */ 
if (a-»flags & b-»-flags & STRM S 
/* 地 址 不 同 就 意味 着 对 象 不 同 */ 
return FALSE; 
































/* 从 这 里 开始 是 对 内 容 的 比较 */ 

/* 如 果 长 度 不 同 则 字符 串 不 同 */ 

if (a-»len !- b-»len) return FAL 
/* 比较 内 容 ， 如 果 内 容 相同 则 字符 串 相同 
if (mememp(a-»ptr, b-»ptr, a-»le 
/* 不 相同 */ 

return FALSE; 





























E] 2-53 ”字符 串 比 较 函 数 


语法 分 析 动 作 


接 下 来 我 们 回 到 语言 处 理 的 实现 上 。 





tring *b) 


TR INTERNED) { 


SE; 
e 
n) s- 0) return TRUE; 





之 前 介绍 过 如 何 使 用 yacc 工具 定义 语法 。 把 yace 的 语法 定义 文件 传 给 yace TH, yace 工具 就 


会 帮 我 们 生成 语法 分 析 的 函数 。 
在 语法 定义 中 增加 “动作 ”， 就 可 以 根 ] 
代码 。 














语法 来 执行 相应 的 处 理 。 动 作 是 指 规则 匹配 时 执行 的 





后 面 我 们 会 看 到 ， 在 动作 部 分 ,，“$$” 是 该 规则 生成 的 值 ,，“$1” 等 是 语法 的 第 n 个 元 素 生 成 
的 值 。 需 要 注意 的 是 ,语法 规则 匹配 时 动作 会 被 立即 执行 ， 因 此 执行 顺序 可 能 与 预想 的 不 同 。 我 们 




















把 它 理解 为 事件 驱动 可 能 更 为 合适 。 


转换 为 抽象 语法 树 

















也 就 是 说 ,语言 处 理 的 本 质 是 在 动作 部 分 写 处 理 代码 。 如 果 想 让 语言 处 理 达到 一 定 的 复杂 程 


度 ， 就 需要 编写 相应 的 动作 代码 。 








理 起 来 比较 困难 。 











许多 语言 处 理 吉 会 在 动作 部 分 将 程序 转换 为 树 结构 。 这 是 因为 转换 前 的 程序 只 是 一 些 文本 ， 处 





把 程序 转换 为 树 结 构 之 后 的 结构 被 称 为 抽象 语法 树 

(Abstract Syntax Tree，AST )， 比 如 Streem 中 相当 于 Hello 
World 的 “将 从 标准 输入 读 取 到 的 字符 串 写 到 标准 输出 ”这 
一 简单 程序 的 抽象 语法 树 就 如 图 2-54 所 示 。 
带 有 运算 符 的 表达 式 (op ) 用 node_op WARZI, € 
的 下 面 有 3 个 分 支 。 一 个 是 保存 运算 符 名 的 op 分 支 ， 这 里 
运算 符 名 是 “|”。 参 数 保存 在 第 2 个 分 文 (lhs ) 和 第 3 个 
分 支 (rhs ) 中 。 

运算 符 之 外 的 表达 式 和 语句 也 有 相应 的 节点 ， 比 如 
函数 调用 的 节点 是 node_call, if 语句 的 节点 是 


node if, 














用 结构 体 表示 语法 树 的 节点 


表示 抽象 语法 树 的 结构 体 的 定义 如 图 2-55 所 示 。 
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stdin | stdout 


O 


Ihs op rhs 
“stdin” “stdout” 


图 2-54 抽象 语法 树 的 例子 
lhs 和 rhs 分 别 是 “left hand side" ( 左边 ) 和 “right 
hand side” ( 右边 ) 的 缩写 











typedef enum ( ) node type; 
NODE ARGS, 
NODE PAIR, Hdefine NODE HEADER node type type 
NODE VALUE, 
NODE CFUNC, typedef struct { 
NODE BLOCK, NODE HEADER; 
NODE IDENT, node value value; 
NODE LET, ) node; 
NODE IF, 
NODE EMIT, typedef struct { 
NODE RETURN, NODE HEADER; 
NODE BREAK, node* recv; 
NODE VAR, node* ident; 
NODE CONST, node* args; 
NODE OP, node* blk; 
NODE CALL, ) node call; 
NODE ARRAY, 
NODE MAP, // 下 面 是 其 他 结构 体 的 定义 


2-55 ”抽象 语法 树 的 结构 体 














组 成 抽象 语法 树 节 点 的 结构 体 ， 其 前 面 有 一 个 名 为 node_type type (NODE HEADER) 的 共 


同 成 员 。 程 序 通过 指针 访问 node 结构 体 ， 程 序 员 根据 需要 参考 type 的 值 进行 类 型 转换 。 从 类 型 




















安全 的 角度 来 看 ， 这 段 代码 的 写法 很 糟糕 ,但 这 是 动态 类 型 语言 中 常用 的 一 个 技巧 。 


118 | 第 2 章 新 语言 Streem 的 设计 与 实现 


接 下 来 定义 创建 与 语法 相应 的 节点 的 函数 ( 图 2-56 )， 然 后 在 动作 部 分 过 


(图 2-57 )。 


extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 


extern 


node* 
node* 
node* 
node* 
node* 
node* 
node* 
node* 
node* 
node* 
node* 
node* 
node* 
node* 
node* 
node* 
node* 
node* 


node* 


node array new(); 

node pair new(node*, node*); 
node map new(); 

node let new(node*, node*); 

node op new(const char*, node*, node*); 


nodelblockinew nodes modei 


node call new(node*, node*, node*, node*); 


node int new(long); 

node double new (double); 
nodeastemciinewlcomstaceh om ze 
nodeanewimodeselimq odes ec 
node emit new (node*); 

node return new (node*); 

node break new(); 

node ident new(node id); 

node ident str(node id); 
nodesnsso 

node true() 


node false(); 


// 相当 于 if£ 语 句 的 节点 





node* 


node if new(node* cond, node* then, node* opt else) 


{ 


mioreke 3bEc sauüE c» mwreuliiere (sube Gmel 5)) p 


nif-»type 


nif-»cond 


nif-»then 





NODE IF; 
cond; 
then; 


Ink copuMe cR ope else; 


recurn 


// 相当 于 整数 的 





node* 


(node*)nif; 


node int new(long i) 


{ 


node* np = malloc(sizeof (node)); 


B 





yt 


1 


调用 即 可 


np-»type = NODE VALUE; 
np-»value.t = NODE VALUE INT; 





re Soe e e 


return np; 














// 下 面 是 其 他 同样 生成 节点 的 函数 的 定义 


























图 2-56 节点 生成 函数 ( 摘录 ) 


program : compstmt 
( /* 将 生成 的 节点 */ 
/* 保存 在 parser state pł */ 


p-»lval — $1; 






































} 
/* 中 间 省 略 */ 
primaryO : lit number /* 节点 在 lex.1 中 生成 */ 
| lit string /* [dL */ 
| identifier 
{ 
$$ - node ident new($1); 
} 
| uqu expr 1)! 
{ 
$$ = $2; 
} 
oe e /* 链表 */ 
{ 
SS = noce arken et (2 
} 
| Yr |]! /* 空 链 表 map */ 
{ 
$$ - node array of (NULL); 
} 
| '[' map args ']' /* map */ 
{ 


$$ = node map of($2); 
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| 0 mu [ cd |]! /* Z*map */ 


$$ - node map of (NULL); 
) 
keyword if condition '(' compstmt ']' opt else 
{ 
$$ - node if new($2, $4, $6); 
) 
keyword nil 
{ 
SS = eels maly 


) 


keyword true 


{ 


SS = nole ciwe y 


} 


keyword false 


{ 


SS = nole telee); 


} 


2-57 ”创建 抽象 语法 树 的 动作 ( 摘录 ) 

实际 的 源 代码 在 Streem 源码 仓库 ( https://github.com/matz/streem ) 的 src 目录 下 ， 大 家 可 以 参 
考 该 目录 下 的 parse.y (语法 分 析 部 分 的 yace 源 代码 ) 和 node.c (节点 生成 部 分 )。 

这 样 一 来 ， 执 行 用 yace 生成 的 yyparse 函数 ， 就 能 得 到 抽象 语法 树 了 。 














直接 执行 语法 树 





语法 分 析 结 果 的 抽象 语法 树 生 “” 表 2-3 各 语言 处 理 器 对 抽象 语法 树 的 处 理 


成 之 后 ， 训 访 对 其 法 和 处理 了 。 外 


理 步骤 有 很 多 ， 各 个 语言 处 理 器 的 ” Ruby 1.8 直接 执行 抽象 语法 树 







































































处 理 方式 也 不 尽 相 同 ( 表 2-3 )。 Ruby 1.9 以 后 ”生成 虚拟 机 机 器 码 之 后 在 虚拟 机 上 执行 

从 表 2-3 来 看 ， 从 抽象 语法 树 ”mruby 生成 虚拟 机 机 器 码 。 也 可 以 直接 在 虚拟 机 上 执行 
生成 虚拟 机 机 器 码 3j 惯 上 称 之 为 Python 生成 虚拟 机 机 器 码 之 后 在 虚拟 机 上 执行 
字 节 码 ) 的 语言 处 理 器 占 大 多 数 。 AO ee 




















这 么 做 有 它 的 道理 。 因 为 从 内 存 访问 的 效率 等 角度 来 看 ， 比 起 遍历 抽象 语法 树 的 链接 来 执行 ， 
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一 般 情 况 下 一 次 性 生成 字 节 码 后 在 虚拟 机 上 执行 的 效率 会 更 高 。Ruby 在 1.9 版 本 之 后 性 能 得 到 了 大 
幅 提升 ， 原 因 就 在 于 引入 了 虚拟 机 。 

那么 Streem 应 采用 哪 种 处 理 方式 呢 ? 当然 ， 最 终 我 会 引入 某 种 形式 的 虚拟 机 ， 不 过 实现 虚拟 
机 也 需要 花费 相应 的 时 间 和 精力 。 为 了 尽早 实现 让 Streem 运行 起 来 的 目标 ， 我 决定 暂且 与 Ruby 1.8 
样 编写 直接 遍历 抽象 语法 树 的 执行 函数 。 

也 许 有 人 觉得 这 是 在 浪费 时 间 ， 但 很 多 时 候 如 果 不 实际 运行 起 来 看 看 ， 就 无 法 想象 所 编写 的 语 
言 具体 是 什么 样子 的 。 即 使 是 为 了 反复 推 项 语言 的 细节 ， 也 需要 尽早 让 语言 进入 可 运行 的 状态 ， 这 
是 非常 重要 的 。 而 且 没 有 什么 比 尝试 让 自己 写 的 代码 实际 运行 起 来 更 能 让 程序 员 兴 奋 的 了 ， 这 是 程 
序 员 动 力 的 源泉 。 现 在 回想 起 来 ， 在 Ruby 二 十 多 年 的 开发 过 程 中 ， 最 痛苦 的 时 期 就 是 从 开始 开发 
到 Ruby 实际 能 跑 起 来 为 止 的 那 半 年 。 
















































































遍历 抽象 语法 树 


语法 分 析 器 把 程序 的 文本 转换 为 表示 抽象 语法 树 的 结构 体 的 链表 结构 。 在 解释 程序 时 ， 需 要 遍 
历 这 个 链表 结构 。 

一 边 遍历 Streem 的 抽象 语法 树 一边 运 行 的 函数 是 exec.c 文件 中 的 exec expr O 函数 。 这 个 
函数 用 一 个 很 长 的 switch 语句 来 根据 节点 的 种 类 进行 相应 的 处 理 。exec_expr 函数 非常 长 (133 
行 )， 所 以 这 里 只 摘录 其 中 一 部 分 (图 2-58 )。 























/* 执行 抽象 语法 树 的 函数 */ 

[9 ques JETRSG o 

/* np: 抽象 语法 树 */ 

/* val: 执行 结果 */ 

/* 返回 值 : 0 — RH, 1 - 失败 */ 


gita emt 


















































execlMexprinmocdeaSstocta etc mecs PME tma Sti) 


{ 


iiae aA 








/* 抽象 语法 树 如 果 为 NULL 则 失败 */ 
if (np == NULL) { 














return 1; 


) 








/* 根据 抽象 语法 树 的 类 型 开始 分 支 处 理 */ 
switch (np-»type) { 

/* 访问 变量 */ 

case NODE IDENT: 
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/* 根据 变量 名 取出 值 */ 
ER 
return 0; 

/* ifiB*] */ 

case NODE IF: 


{ 


strm value v; 
/* 把 np 类 型 转换 为 node_if */ 
Tode diie mir = oci Me dy 
/* 执行 条 件 部 分 ( 递归 调用 exec_expr ) */ 
me eae eror (ots, ms cron c MED 
/* 条 件 部 分 执行 失败 则 处 理 失败 / 
side Ga eee aa Wels 
/* 如 果 条 件 部 分 为 真 */ 
if (strm value bool(v)) { 
/* 执行 then 部 分 */ 
meoummmexecles retten va 
) 
else if (nif-»opt else !- NULL) { 
/* 执行 else 部 分 */ 
metu e»ccol esp rete» SEEMS OE 


} 
























































else { 
/* 如 果 没 有 else 部 分 则 为 null */ 
SEE 
return 0; 
) 
j 
break; 


/* 运算 符 表达 式 */ 
case NODE OP: 
{ 
/* 类 型 转换 为 node op */ 
nocemop inopi nodedop dn 
strm value args[2]; 


tne atc s 


/* 执行 左边 */ 
if (nop-»lhs) { 
n — exec expr(ctx, nop-»l1hs, &args[irr]l); 


if (n) return n; 


} 
/* 执行 右边 */ 
if (nop->rhs) { 
n - exec expr(ctx, nop-»rhs, 


CERTE ESEU Yelp 

















/* 函数 调用 ( 调用 名 称 为 “| " 
mesures ECCE 


) 


break; 
/* 函数 调用 */ 


case NODE CALL: 








的 函数 ) */ 


AOP Sop 





























} 


} 
图 2-58 exec expr 函数 ( 摘录 ) 
灵活 应 用 递归 调用 


args, 











在 实现 遍历 这 种 树 结构 的 函数 时 ， 一 般 使 用 递归 调 




















1. 递归 调用 左边 的 部 分 去 执行 
2. 递归 调用 右边 的 部 分 去 执行 
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&args [i++] ) ; 


val); 


j， 比 如 运算 符 表达 式 会 按照 以 下 顺序 执行 。 
















































































3. 把 两 边 的 运行 结果 作为 参数 ， 调 用 相当 于 运算 符 的 函数 

其 他 表达 式 和 话 句 也 是 一 样 的 。 由 于 需要 为 每 种 类 型 的 节点 编写 处 理 代 码 ， 所 以 代码 会 变 得 很 
长 ， 不 过 做 的 只 是 重复 相同 的 处 理 ， 其 实 也 没 那么 复杂 。 

同样 通过 递归 调用 树 结构 来 进行 遍历 的 还 有 main.c fJ dump. node () 函数 。 这 个 函数 是 在 调 
试 时 使 用 的 ， 用 缩 进 表 示 树 结构 ， 代 码 的 结构 与 exec expr O 相似 。 图 2-59 是 dump node O 

















函数 的 摘录 。 将 图 2-54 的 树 结构 用 dump. node () 








/* 打印 抽象 语法 树 的 函数 */ 
/* np: 抽象 语法 树 */ 

/* indent: 缩 进 层 级 */ 
static void 





























dump node(node* np, int indent) ( 


slt 3bp 


函数 输出 ， 


代码 就 如 图 2-60 所 示 。 
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/* 缩 进 到 指定 的 层级 为 止 */ 


for (1i s 0; 1 € indent; IFE) 





pücchari EE 


/* 如 果 为 NULL 则 打印 NIL */ 
Le (dah 4 
peime EUN ENA 


se (SEDES p 














/* 根据 抽象 语法 树 的 类 型 开始 分 支 处 理 */ 
switch (np-»type) { 
/* ifiB*] */ 
case NODE IF: 
{ 

A TRR y 

Pene TEEN 

/* 打印 条 件 部 分 */ 


dump node(((node if*)np)-»cond, maene 








for (i 2» 0; i « indent; ic) 
putchar ERDF 

NE 

/* 打印 then 部 分 */ 


dump node(((node if*)np)-»then, indent-*1); 





nodcesoptEeilses-qmoces)mp)Eoptledser 
/* ( 如果 不 为 空 ) 打印 else 部 分 */ 
if (opt else !- NULL) { 
for (Xi e 0r 1i e indenb; der) 
putera E 





printf("ELSE:Wn"); 











dump node(opt else, indent-1); 
) 
} 
break; 
/* 运算 符 表达 式 */ 
case NODE OP: 
/* 打印 类 型 */ 
perne COBEN 
Om 0 emt ER) 
puteran (TER 
/* 打印 运算 符 名 */ 


default: 


) 
} 
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pousser oM (mode cpe) ne op 


/* 打印 左边 */ 


dump node(((node op*) np)-»1hs, indent-*1); 


/* 打印 右边 */ 


dump node(((node op*) np)-»rhs, indent-*1); 


break; 


/* 中 间 省 略 */ 











/* 未 知 类 型 ( 错误 ) */ 


printf ("UNKNWON ($d) \n", np-»type); 


break; 


图 2-59 dump_node() 函数 ( 摘录 ) 


stdin | stdout 


STMTS: 


ORE 


IDENT: stdin 
IDENT: stdout 





E 2-60 ”抽象 语法 树 的 dump 输出 


用 开源 的 方式 开发 


本 节 介 绍 的 抽象 语法 树 的 生成 和 运行 部 分 是 在 mattn 先生 提交 的 Pull Request 的 基础 上 开发 的 。 
当 我 还 在 开发 之 前 讲解 的 事件 循环 的 时 候 ， 他 就 已 经 帮 我 把 基础 部 分 的 代码 写 好 了 。 这 就 是 开源 的 


力量 。 





日 这 并 不 是 说 发 给 我 的 代码 直接 就 能 























对 














]。 包 括 修改 函数 和 结构 体 的 名 称 在 内 ， 我 做 了 大 量 修 








普通 软件 开发 (开源 以 外 的 ) 经 验 的 人 也 许 会 觉得 这 有 些 奇 怪 ， 因 为 在 多 数 情况 下 “应 该 


多 人 修改 同一 处 代码 的 情况 ， 而 且 有 些 人 也 会 因此 而 感到 不 舒服 。 
自己 编写 的 代码 有 感情 ， 不 希望 别人 修改 是 人 之 常情 ,但 许多 开源 项 目 并 不 怎么 看 重 这 种 
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在 开源 项 目 中 ， 很 多 人 提交 一 次 修改 之 后 就 不 再 出 现 了 ， 如 果 过 于 看 重 “ 所 有 权 意 识 ” 和 “和 负 
责 人 意识 ”， 那 么 开发 就 不 会 进步 。 第 三 者 自由 地 发 送 修改 申请 ， 作 者 采纳 修改 意见 ， 这 是 开源 软 
件 中 典型 的 一 种 行为 ， 如 果 原 作者 的 所 有 权 意 识 太 强 ， 那 是 无 法 接受 这 种 行为 的 。 在 开源 项 目 中 ， 
或 许可 以 说 所 有 权 意 识 这 种 “自我 意识 ”不 被 看 重 才 是 自然 的 。 





























理想 的 语言 处 理 器 





对 照 Ruby 1.8 就 会 发 现 ， 本 节 讲 解 的 遍历 抽象 语法 树 的 处 理 器 虽然 实现 起 来 很 简单 ， 但 是 性 能 
不 好 ， 最 大 的 原因 在 于 2-6 节 讲 解 的 内 存 缓存 。 

遍历 结构 体 的 链接 就 意味 着 要 依次 访问 分 散在 内 存 中 的 结构 体 ， 所 以 缓存 的 效率 可 以 说 是 最 
差 的 。 

为 了 有 效 利 用 内 存 缓存 ， 一 次 访问 尽量 在 有 限 的 内 存 空 间 内 连续 进行 是 比较 理想 的 ， 因 此 许多 
语言 处 理 器 选择 将 抽象 语法 树 转 换 为 虚拟 机 的 指令 序列 ， 然 后 解释 这 个 指令 序列 去 实际 运行 。 

我 打算 让 Streem 也 采用 这 种 方式 。 因 为 Streem 的 使 用 场景 决定 了 性 能 是 不 可 忽视 的 一 个 要 素 。 
我 还 想 进 一 步 尝试 实现 JIT (Just-in-time ) 编译 器 ， 在 运行 时 生成 机 器 码 并 运行 。 

但 是 在 现 阶段 ， 把 精力 放 在 语言 设计 上 更 为 重要 。 有 一 句 程序 员 格言 是 这 么 说 的 :“ 过 早 优化 是 
万 恶 之 源 。 






































今后 的 计划 


现在 终于 有 运行 Streem 程序 的 感 党 了 ， 但 是 Streem 还 不 能 定义 函数 ， 也 不 能 进行 管道 操作 ， 
所 以 只 是 我 心里 这 么 感觉 而 已 。 

因此 下 一 步 要 实现 函数 运行 的 部 分 ， 让 “完整 ”的 Streem 程序 能 够 运行 起 来 。 另 外 ， 我 也 准 
备 和 大 家 探讨 一 下 异常 处 理 的 相关 内 容 ， 从 而 应 对 运行 中 发 生 的 错误 。 














小 结 


通过 组 合 前 面 在 parse.y、node.c 和 exec.c 中 定义 的 函数 ， 我 们 可 以 轻松 地 创建 寻 且 能 够 运行 起 来 
的 语言 。 本 节 对 应 的 源 代码 的 标签 是 201506。 大 家 可 以 参考 这 个 源 代码 去 试 着 创建 自己 的 语言 。 

对 语言 设计 进行 各 种 思考 之 后 ， 就 可 以 想象 出 自己 正在 使 用 的 语言 为 什么 是 现在 这 个 样子 的 、 
语言 设计 者 是 怎么 想 的 ， 等 等 ， 非 常 有 意思 。 
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时 光 机 专栏 
语法 树 的 实现 方法 不 止 一 种 



































本 节 是 2015 年 6 月 刊 中 刊登 的 内 容 ， 主 要 讲解 了 连接 语法 分 析 器 ( 前 端 ) 和 代码 生成 部 
) 的 语法 树 的 实现 。 

语法 树 的 实现 方法 ， 或 者 说 连接 前 端 和 后 端的 方法 不 止 一 种 ( 而 且 也 不 限于 树 结构 )， 其 
中 还 有 不 区 分 前 后 端 ， 在 语法 分 析 器 中 直接 生成 代码 的 编译 器 。 不 过 在 语法 分 析 器 中 直接 生成 
代码 的 做 法 不 利于 实施 优化 ， 因 此 我 并 不 推荐 这 么 做 。 
很 多 编译 器 会 将 程序 语法 解析 为 某 种 数据 结构 ， 然 后 传 给 代码 生成 部 分 。 而 树 结构 在 表示 程序 
的 数据 结构 中 是 比较 常用 的 ， 所 以 反映 了 语法 的 树 结构 ， 也 就 是 语法 树 经 常 被 各 种 语言 使 用 。 
语法 树 的 实现 方式 多 种 多 样 。 我 参与 的 语言 处 理 器 中 ， 本 次 介绍 的 Streem 根据 节点 种 类 
的 不 同 使 用 了 不 同 的 结构 体 ，mruby 则 通过 与 Lisp 类 似 的 cons cell 的 链接 来 创建 树 结构 。 
另外 ，CRuby 在 表示 节点 的 结构 体 中 使 用 union 来 区 分 节点 的 种 类 。 如 上 所 示 ， 我 们 不 能 说 
哪 种 方式 才 是 正确 的 。 

顺便 说 一 句 ， 在 传统 的 编译 器 gcc 和 clang 中 , gcc 使 用 了 RTLI(Register Transfer 
Language ), clang 使 用 了 LLVM IR ( Intermediate Representation ) 这 种 中 间 代 码 的 形式 来 连 
接 前 端 和 后 端 。 这 两 种 方式 都 不 是 语法 树 数据 ， 真 是 有 趣 。 



























































































































































































































































-8 局 部 变量 与 异常 处 理 


Streem 可 以 作为 语言 开始 运行 了 ， 这 次 我 们 再 为 它 添加 两 个 功能 : 一 个 是 局 部 变量 ， 
在 这 部 分 内 容 中 我 们 将 探讨 是 否 允 许 嵌 套 、 如 何 实现 闭 包 等 设计 上 的 问题 ， 另 一 个 是 
异常 处 理 ， 关 于 异常 处 理 ， 我 们 将 探讨 如 何 通 过 忽视 错误 以 让 处 理 继续 进行 。 




















I 























经 过 2-7 WAAI, Streem 终于 有 编程 语言 的 样子 了 ， 这 次 我 们 再 为 它 增加 局 部 变量 和 异常 处 
理 两 个 功能 。 





m 局 部 变量 


我 们 首先 来 思考 一 下 局 部 变量 的 相关 内 容 。 对 现在 的 编程 语言 来 说 ， 局 部 变量 可 以 说 是 常识 中 
的 常识 ， 但 在 很 久之 前 却 并 非 如 此 。 











回 到 30 年 前 


我 们 回 到 30 年 前 看 一 看 。 那 时 编程 爱好 者 们 常用 的 语言 是 BASIC， 而 当时 的 BASIC 语言 中 没 
有 局 部 变量 。 大 家 能 想象 出 没有 局 部 变量 的 编程 场景 吗 ?” 所 有 变量 在 任何 地 方 都 有 可 能 被 修改 ， 
此 很 难 知道 值 是 在 哪里 被 修改 的 。 

当时 ， 年 轻 的 开发 者 们 都 是 用 BASIC 语言 来 开发 程序 的 ， 其 中 就 不 乏 游戏 等 具有 一 定 规模 的 
程序 。 这 样 的 程序 竟然 都 能 调试 ， 现 在 想 想 真是 让 人 敬佩 。 






































没有 局 部 变量 的 世界 


BASIC 中 是 用 下 面 这 样 的 行 号 来 调用 子 程序 的 。 





gosub 4000 











由 于 没有 参数 和 返回 值 ， 所 以 只 能 用 全 局 变量 来 传递 值 。 具 体 做 法 是 把 值 保存 在 某 个 变量 中 ， 
调用 子 程序 ， 然 后 计算 结果 就 会 被 保存 到 另 一 个 变量 中 。 当 然 ， 像 信息 隐藏 这 种 高 级 功能 是 无 法 实 
现 的 ， 把 一 个 流程 汇总 到 一 个 函数 中 进行 抽象 化 也 是 不 行 的 。 
甚至 连 函 数 都 没有 ， 所 以 也 无 法 进行 函数 的 递归 调用 。 
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部 变量 的 引入 


要 说 最 早 发 明了 局 部 变量 的 编程 语言 是 什么 ， 很 遗憾 我 没有 查 








def fact (n) 








到 准确 的 信息 ， 但 可 以 确认 最 早 引 入 局 部 变量 的 语言 是 Algol。Algol | 
虽然 没有 像 FORTRAN 语言 那样 流传 到 现在 ， 但 它 引入 的 语言 特性 1 
却 影响 了 后 来 的 很 多 语言 。 dni 
有 了 局 部 变量 就 可 以 把 一 系列 处 理 封装 起 来 作为 函数 提供 ， 这 UG E 
也 使 得 递归 调用 成 为 可 能 ( 图 2-61 )。 不 过 ， 如 果 强 行使 用 数组 自 ” 








己 去 开发 栈 ， 那 么 用 全 局 变量 进行 递归 调用 也 不 是 不 可 能 。 据 说 
FORTRAN 在 还 没有 局 部 变量 的 时 候 就 是 使 用 这 种 方式 编程 的 ， 不 过 图 2-61 递归 调用 
我 不 想 这 么 做 。 


















































局 部 变量 的 实现 

局 部 变量 的 实现 并 不 是 很 难 ， ee E i i 
函数 运行 时 准备 一 个 数组 ， 将 值 保 存在 该 变量 的 索引 指定 的 位 函数 在 每 snc 
般 称 为 栈 。 

这 里 有 一 点 需要 注意 ， 就 是 要 把 握 好 函数 每 次 运行 时 使 用 的 局 部 变量 的 数量 ， 不 要 超过 栈 的 大 























小 。 栈 溢出 在 安全 层面 上 也 是 一 个 重大 的 问题 。 
接 下 来 我 们 就 尝试 在 Streem 语言 处 理 器 中 增加 局 部 变量 功能 。 首 先 在 语法 分 析 部 分 修改 变量 
的 赋值 和 访问 的 代码 。 














在 Streem 中 实现 局 部 变量 


现在 的 Streem 语法 分 析 器 在 赋值 部 分 生成 NODE_LET 节点 ， 在 访问 部 分 生成 NODE_IDENT 
节点 。 

之 前 的 实现 中 都 没有 涉及 NODE_LET， 在 访问 全 局 变量 时 使 用 了 NODE_IDENT。 我 们 来 修改 
一 下 这 部 分 内 容 。 首 先 在 NODE_LET 初始 化 局 部 变量 。 刚 才 介绍 过 要 为 每 个 局 部 变量 分 配 索 引 
op 所 以 局 部 变量 也 用 散 列 表 保存 。 将 来 引 | 入 虚拟 机 之 
后 我 们 再 考虑 性 能 问题 

NODE LET, — s € ( 如 果 还 没 做 的 话 )。 在 Streem 中 ， 即 使 是 
局 部 变量 也 只 能 赋值 一 次 ， 不 能 再 做 修改 ， 因 此 当 已 赋值 的 局 部 变量 再 次 被 赋值 时 ， 就 会 抛 出 运行 
时 错误 。 na 将 来 引入 虚拟 机 时 就 应 该 是 编译 错误 。 

NODE IDENT 访问 局 部 变量 表 ， 如 果 其 中 存在 要 访问 的 变量 ， 就 取出 变量 的 值 ， 和 否则 就 访问 全 
局 变量 表 ， 如 果 没 有 定义 全 局 变量 则 报错 。 














ar 
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Streem 在 消 数 运行 时 会 传 给 水 数 node_ctx 结构 体 。 这 个 结构 体 保 存 运 行 时 的 上 下 文 ( 语 


zs 
a 








E sept ap- z 


= pp 





境 )， 用 于 实现 局 部 变量 的 局 部 变量 表 


( 散 列 ) 要 作为 成 


Di e ERO 


添加 到 这 个 结构 体 中 。 


node ctx 只 是 用 于 遍历 现在 的 节点 并 执行 的 结构 体 ， 所 以 将 来 引入 虚拟 机 时 应 该 会 修改 结构 


体 的 名 称 。 


局 部 变量 的 藤 套 


Sy 


语言 设计 上 需要 决定 是 否 允 许 

局 部 变量 般 套 对 此 ， 各 个 语言 的 
规则 不 尽 相 同 。 比 如 C 和 Java 允许 
局 部 变量 航 套 ， 在 括号 括 起 来 的 范 
围 内 定义 的 局 部 在 该 作用 域 
的 范围 内 有 效 。 在 不 同 的 作用 域 ， 
即使 定义 同名 的 变 也 会 被 当成 
不 同 的 变量 ( 图 2-62 )。 
可 以 在 内 侧 的 作用 域 定义 与 外 
部 作用 域 的 变量 同名 的 变量 。 因 为 
是 同名 的 不 同 变量 ， 所 以 即使 名 称 
相同 ， 类 型 也 可 以 不 同 。 不 过 从 代 
码 可 读 性 的 角度 考虑 ， 还 是 不 要 这 
么 做 比较 好 ， 以 免 造成 混乱 。 

而 Ruby 只 是 在 类 定义 和 方法 
定义 中 引入 了 作用 域 ， 没 有 准备 像 
C 的 括号 那样 的 临时 作用 域 的 语法 
(除了 后 面 要 介绍 的 特殊 情况 )。 

前 面 也 说 过 ,通过 山 套 作 


一 个 其 他 名 字 的 变量 即 可 避 开 这 一 特 怕 











sE. 
变量 只 





Ex 
FH , 










































































] 域 定义 同名 的 不 同 






























































void 
func() 
{ 
int i = 10; /* 的 作 
while (i--) { 
int j - 5; /* jfMEJ 
petur (Wiee ae 3L. 3g 
} 
/* 用 括号 引入 新 的 作用 域 */ 
{ 


或 是 整个 Eunc 函 数 */ 


域 限定 在 while 中 */ 





double j = 1.5; /* 这 个 变量 与 上 面 的 j 不 同 */ 


printf("new j:$gWn" 
) 
) 


PERPE 


图 2-62 C 的 肉 套 作用 域 








nap} 


变量 并 不 是 一 种 不 可 缺少 的 语 











E) Tx 


关于 这 一 点 ， 我 准备 在 Streem 中 也 采用 相同 的 做 法 。 


作用 域 嵌 套 的 特殊 情况 


前 面 说 到 Ruby 除了 特殊 情况 以 外 没有 引入 符 套 的 作 


底 指 什么 。 

















— 


H 





特 





E (只 需 定义 


会 带 来 混乱 ， 所 以 Ruby 没有 特意 去 引入 。 


j 域 ， 我 们 接 下 来 就 来 看 一 看 特 丈 情况 到 


Ruby Fit EKE TEARRE, BAE (closure) 却 是 个 例外 。 一 般 来 说 ， 在 类 或 方 




















法 内 定义 的 变量 的 作用 域 范围 








就 是 在 该 类 或 方法 的 范围 内 ， 而 在 类 或 方法 内 的 代码 块 或 


匿名 函数 中 
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出 现 的 变量 的 作用 域 范 围 则 只 是 在 该 代码 
块 或 匿名 函数 的 范围 内 ( 图 2-63) # 从 do 开始 到 end 结 束 的 代码 块 是 作用 域 范 匣 
[1,2,3].each do |i| 4 LRE RDE 
思考 一 下 就 可 以 明日 ， 由 于 Ruby5U  MEMMMMMMMEM # sq 也 只 在 代码 块 内 有 效 
代码 块 和 匿名 函数 是 函数 ， 所 以 需要 使 用 © f. sal 














限制 了 访问 作用 域 的 局 部 变量 ， 不 然 就 要 end 
倒退 回 只 有 全 局 变量 的 子 程序 时 代 了 。 

为 了 减少 混乱 ， 我 做 了 一 点 改进 。 在 
使 用 像 C 和 Java 那样 的 垦 套 作用 域 时 ， 对 
与 外 部 作用 域 同名 的 变量 发 出 警告 ， 但 这 样 ”图 2 69 Ruby MESME 
做 的 缺点 是 局 部 变量 的 有 效 范围 不 再 一 目 了 — p 是 将 参数 的 对 象 转换 成 易 读 的 字符 串 ， 然 后 打印 到 标准 输出 的 方法 
然 。 就 现状 来 说 ， 这 并 不 是 最 理想 的 改进 方 
法 ， 而 且 还 与 Ruby 没有 变量 声明 的 语法 相抵 触 (图 2-64 )。 























匿名 函数 也 引入 了 作用 域 
= ->(x) { x * x) #x 只 在 代码 块 内 有 效 











Fh dk 













































































* 碰巧 与 外 部 作用 域 变 量 的 变量 名 重复 了 
e = 10 
Hrer Sy] scexela domai] 
i9 dL 
end 

















[1,2,3].each do |e| 
pe 

end 

# 指定 -v 参 数 时 

# 会 被 警告 


# warning: shadowing outer local variable - e 














# 从 作用 域 中 拿 出 变量 比较 麻烦 

















even = nil # 如 果 忘 记 了 这 行 就 会 出 错 
[1,2,3].each do |i| 



































d os €$ € e 0 
even = i 

end 
end 
p even # 如 果 没 有 事先 进行 初始 化 则 不 能 访问 even 
# 指定 -Vv 参数 时 
# 会 被 警告 
4 warning: assigned but unused variable - even 


E 2-64 Ruby 局 部 变量 的 缺点 
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我 个 人 认为 这 是 Ruby 的 设计 中 令 人 不 大 满意 的 地 方 。 过 去 为 了 改进 这 个 问题 我 想 了 很 多 


办 法 ， 图 2-64 中 的 警告 等 就 是 一 个 反映 。 实 际 上 我 想 实现 的 不 仅仅 是 警告 ，; 


的 作用 域 来 进一步 做 出 改善 ， 但 考虑 到 兼容 性 的 问题 ， 也 担心 


没有 实现 。 


没有 采用 的 语法 规则 还 包括 局 部 变量 的 传递 等 ( 图 2-65 )。 


[1,2,3].each do |i| 


ip d $$ 2 sa 0 

















# 这 里 被 初始 化 的 变量 


even = i 
end 
end 
# 如 果 在 作 









































域外 被 访问 ， 则 提升 它 的 作用 域 




















# 也 就 是 说 ， 把 它 当 作 属 


p even 


E] 2-65 局 部 变量 的 传递 











F 外 部 作用 域 的 局 部 变量 














这 虽然 是 一 个 好 方法 ， 但 实现 起 来 比较 麻烦 ， 而 且 还 可 能 会 带 来 更 严重 的 问题 


HE ( RAAE ) 


代码 块 中 允许 局 部 变 
匿名 函数 访问 外 部 作用 域 的 变 


用 域 之 后 还 能 继续 存活 。 








量 的 舱 套 就 意味 着 可 以 从 代码 块 和 
量 


， 而 且 有 时 匿名 函数 出 了 作 











比如 图 2-66 的 程序 。 在 函数 incdec 内 部 创建 的 两 个 











匿名 函数 分 别 访问 了 外 部 的 局 部 变量 acc。incdec 运行 结 








束 后 ,一般 来 说 这 时 局 部 变量 应 该 被 回收 了 ,但 由 于 它 还 在 


被 匿名 函数 使 用 ， 所 以 就 没有 被 回收 。 外 部 作用 域 的 变量 被 





“封闭 ”在 函数 对 象 之 中 


或 者 函数 闭 包 。 


闭 包 的 实现 


， 所 以 我 们 就 把 这 种 状态 称 为 闭 包 


这 种 闭 包 实 现 起 来 非常 麻烦 。Ruby 的 处 理 器 把 局 部 变 
量 的 朋 套 关系 作为 “环境 ”保存 在 函数 对 象 中 ,这样 在 访问 
作用 域外 部 的 函数 时 ， 使 用 的 就 是 外 部 的 环境 。 





五 关公 





语言 会 变 得 过 于 复杂 ， 所 以 最 终 


def incdec 


























0 $4 被 封 在 里 面 的 变 








-»0 (t 


return [inc, dec] 


end 

dec 2 incedec() 
seuil 
Jes 
Call 
"cras 


ino. ( 
p inc 1 
po TE 
p dec Jb 

0 


p dec 


K 2-66 HE 


acc 加 1 
acc 加 1 


acc) 


acc) 


成 1 
咸 1 





2-8 ”局 部 变量 与 异常 处 理 | 133 


mruby 中 的 函数 对 象 (proc ) 与 环境 (env) 的 


定义 如 图 2-67 所 示 。 struct REnv { 

mruby 虚拟 机 访问 外 部 作用 域 的 指令 有 oP_ Fusce Nd 
GETUPVAR 和 OP_SETUPVAR， 两 者 都 可 以 得 到 操作 数 uds vu mie; 
来 指定 访问 第 几 层 外 部 作用 域 的 第 几 个 变量 。 ptrdiff t cioff; 





环境 是 单独 的 Ruby 对 象 ， 在 被 函数 对 象 使 用 期 间 H 


























保持 存活 。 如 果 没 有 对 象 使 用 ， 则 由 垃圾 回收 器 回收 。 
struct RProc ( 
MRB OBJECT HEADER; 
Streem 的 闭 包 union { 
imb ep ED 
但 是 Streem 5j Ruby 有 一 人 处 不 同 ， 这 就 使 得 mrb func t func; 
Streem 在 闭 包 的 实现 上 更 加 简单 。 这 个 不 同 之 处 就 是 ， TR 


struct RClass *target class; 





Streem 中 即使 是 局 部 变量 也 不 允许 被 修改 。 当 然 ， 这 a 
一 点 也 导致 了 Streem 不 能 创建 图 2-66 那样 的 有 状态 的 i 
闭 包 ， 但 考虑 到 状态 和 副作用 是 函数 式 语 言 应 该 避 开 
的 ， 所 以 也 就 算 不 上 什么 不 好 的 事情 了 。 Æ 2-67 mruby 的 闭 包 实现 

Streem 的 函数 对 象 的 定义 如 图 2-68 所 示 。 如 前 所 
yh, 在 Streem 中 不 需要 担心 局 部 变量 被 修改 ， 所 以 闭 typedef struct strm lambda { 


















































包 直接 复制 变量 的 值 即 可 。 不 过 现在 的 实现 还 很 简单 ， STRM OBJ HEADER; 
内 部 还 保持 着 外 部 环境 的 链接 ， 每 次 访问 时 都 会 遍历 链 f Een 


struct node lambda* body; 


接 。 而 虚拟 机 版 本 为 了 改善 性 能 ， 在 生成 函数 对 象 时 会 /* 保持 作用 域 的 上 下 文 */ 
复制 变量 的 值 。 struct node ctx* ctx; 
} strm lambda; 























编译 时 检查 
图 2-68 Streem 的 闭 包 实现 


这 次 我 们 实现 了 对 已 经 存在 的 局 部 变量 再 次 赋值 ， 以 及 访问 不 存在 的 局 部 变量 时 抛 出 运行 时 错 
误 的 功能 ， 但 其 实 从 程序 字面 上 就 可 以 判断 出 对 局 部 变量 的 赋值 和 访问 是 否 报错 ， 所 以 本 来 应 该 算 
作 编 译 错误 的 。 
运行 时 错误 意味 着 “不 运行 就 不 会 被 发 现 ”"， 让 人 无 法 放心 , 但 编译 错误 就 没有 这 方面 的 问题 。 
在 编程 语言 的 发 展 历程 中 ， 以 前 的 语言 就 连 语法 错误 都 在 运行 的 时 候 去 检查 ， 但 现在 更 多 的 是 在 编 
译 时 检查 ， 所 以 我 打算 近期 改善 这 个 问题 。 



















































































介绍 完 局 部 变量 ， 下 面 我 们 来 思考 一 下 异常 处 理 。 
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Md 


理 上 ， 但 也 无 法 对 这 些 异 常情 况 视而不见 。 
我 们 就 以 “打开 文件 ” 











= 














open 系统 调 


在 进行 各 种 处 理 时 ， 某 些 原因 可 能 会 使 处 理 





这 个 简单 的 处 理 为 例 











其 中 之 一 )， 当 创建 新 文件 时 ， 使 








int open(const char* path, 


int open(const char* path, 


图 2-69 open 系统 调用 


即便 是 如 此 简单 的 文件 打开 处 理 ， 也 
会 发 生 异 常情 况 。 表 2-4 汇 总 了 open 
统 调用 可 能 会 发 生 的 错误 。 包 括 EPERM 这 
种 Linux 特有 的 错误 在 内 ， 实 际 上 可 能 发 
生 的 异常 情况 竟 有 23 种 。 

当然 在 大 多 数 情 况 下 文件 能 够 正常 打 
开 ， 但 这 并 不 意味 着 就 可 以 忽视 异常 情况 。 
异常 情况 出 现时 ， 程 序 会 异常 终止 ,这 种 
情况 反而 会 给 我 们 带 来 困扰 。 在 使 用 文本 
编辑 器 编辑 文件 时 ， 如 果 输 错 了 文件 名 ， 
选择 了 不 存在 的 文件 ， 使 整个 文本 编辑 器 
异常 退出 ， 那 就 让 人 和 欲 刁 无 泪 了 。 

也 就 是 说 ， 软 件 运行 时 肯定 会 伴随 
着 异常 情况 ， 所 以 需要 对 其 进行 恰当 的 
处 理 。 

但 另 一 方面 ， 异 常情 况 终究 只 是 个 
例 ， 我 们 一 般 不 大 想 去 编写 处 理 代 码 ， 也 
不 想 去 读 这 些 代 码 。 搬 入 了 有 异常 处 理 的 代 
码 之 后 ， 导 致 程序 本 身 的 逻辑 变 得 让 人 费 
解 ， 这 是 我 们 不 希望 看 到 的 。 

对 语言 设计 来 说 ， 如 何 处 理 异常 情况 
是 非常 重要 的 。 











































































































来 思考 一 下 。 需 要 做 的 仅仅 是 
J 开 文 件 ”"， 在 Linux 等 类 UNIX 操作 系统 中 会 使 用 open 系统 调用 完成 这 个 处 理 。 
] 的 原型 如 图 2-69 所 示 。£1ags 参数 用 于 指定 文件 打开 模式 ( 读 取 、 写 入 和 追加 


没有 按照 预期 进行 。 尽 管 自 己 很 想 把 精力 集中 在 处 








“指定 文件 名 ， 





然后 





int flags); 
int flags, mode t mode); 


] 第 3 个 参数 指定 文件 模式 ， 也 就 是 文件 的 访问 权限 。 


表 2-4 open 系统 调用 可 能 发 生 的 错误 


EACCES 
EDQUOT 
EEXIST 
EFAULT 
EINTR 
EINVAL 
EISDIR 
LOOP 

FILE 
NAMETOOLONG 
NFILE 
NODEV 
NOENT 
NOMEM 
NOSPC 
NOTDIR 
NXIO 
EOPNOTSUPP 
EOVERFLOW 
EPERM 
EROFS 
ETXTBSY 
EWOULDBLOCK 


E 
E 
E 
E 
E 
E 
E 
E 
E 
E 





没有 文件 访问 权限 

已 到 达 disk quota ( 容量 限制 ) 
FEFE 

path 是 不 正确 的 地 址 

系统 调用 被 中 断 

指定 了 不 正确 的 flags 

指定 的 是 目录 

符号 链接 循环 

进程 打开 了 过 多 的 文件 
Be Ss 
系统 打开 了 过 多 的 文件 
设备 不 存在 
文件 不 存在 

( 内 核 空 间 的 ) 内 存 不 足 
磁盘 已 满 
path 不 是 目录 

没有 FIFO 管道 操作 的 对 象 

不 支持 tmpfile 

SORP BIZAS, 

没有 O_NORATIME 权限 
尝试 在 只 读 磁 盘 写 入 

没有 向 运行 中 的 程序 写 入 的 权限 
指定 了 O NONBLOCK 时 可 能 会 阻塞 

























































































着 误 检 查 
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C 语言 以 及 最 近 的 Go 语言 都 会 进行 错误 检查 ， 比 如 在 调用 有 可 能 会 失败 的 函数 时 ， 这 些 语言 


会 检查 返回 值 ， 确 认 函 数 是 否 执行 成 功 。 


这 种 做 法 的 优点 是 不 需要 在 语法 层面 上 做 任何 支持 ， 所 以 实现 起 来 非常 简单 。 下 面 要 介绍 的 





“异常 ”是 在 你 没 注 意 到 的 时 候 程序 中 止 了 运行 ， 因 此 根据 





P 上 时 间 点 的 不 同 可 能 会 有 意料 之 外 的 


情况 发 生 。 比 如 可 能 会 出 现 数据 不 一 致 的 问题 ， 或 者 没有 释放 内 存 ， 发 生 内 存 泄漏 等 。 


(有 有 异常 机 制 的 ) C++ 把 不 会 发 生 这 种 问题 的 情况 称 为 








“异常 安全 ”， 但 是 稍微 了 解 一 下 就 能 


iB, 在 C++ 中 保证 “异常 安全 ”也 是 非常 困难 的 。 而 错误 检查 就 避免 了 这 样 的 困难 。 








但 是 错误 检查 有 一 个 缺点 ， 就 是 异常 情况 的 处 理 代码 与 主 逻 辑 的 代码 混在 一 起 ， 正 常情 况 的 处 
理 代 码 被 埋没 ， 从 而 使 程序 变 得 令 人 费解 。 如 果 忘 记 进 行 错 误 检 查 ， 程 序 在 前 提 条 件 不 成 立 的 情况 




















下 仍 强制 运行 ， 最 终 就 可 能 导致 异常 退出 ， 甚 至 引起 安全 方 盏 





i 的 问题 。 











Go 语言 利用 函数 可 以 返回 多 个 值 这 一 特点 来 降低 忘记 检 


让 “异常 ”产生 

















查 的 风险 ， 但 代码 依然 很 烦琐 。 























接 下 来 的 说 法 可 能 容易 和 前 面 的 内 容 混 消 : 在 发 生 异 常情 况 时 ， 很 多 编程 语言 提供 了 产生 “ 异 
常 ”对 象 、 中 止 程序 运行 的 功能 。C++、Java 和 Ruby 等 都 提供 了 这 种 异常 机 制 。 在 现在 的 编程 语 











言 中 ， 相 比 进行 错误 检查 ， 提 供 异 常 机 制 的 语言 更 加 普遍 。 

















异常 最 大 的 优点 是 ， 当 异常 情况 导致 前 提 条 件 不 成 立时 比如 文件 不 存在 导致 无 法 打开 等 ) fü 








序 会 自动 中 止 运 行 ， 因 此 程序 就 不 会 在 前 提 条 件 不 成 立 的 情况 下 继续 运行 ， 从 而 也 就 保障 了 安全 。 
异常 的 缺点 我 们 在 前 面 也 提 到 过 ， 由 于 发 生 异 常情 况 时 程序 会 自动 中 止 运 行 ， 所 以 很 难保 证 异 
常安 全 。 但 是 支持 垃圾 回收 的 Ruby 等 语言 要 比 手动 管理 资源 的 C++ 等 语言 更 容易 维持 异常 安全 ， 














所 以 说 实现 的 困难 程度 因 语 言 而 不 同 。 


Swift 的 Optional 





























美国 苹果 公司 开发 的 Swift 没有 提供 异常 处 理 机 制 ， 取 而 代 之 的 是 ，Swift 将 可 能 会 失败 的 函数 
的 类 型 指定 为 optional<T> 类 型 。optional 这 种 类 型 既 可 以 存储 某 种 类 型 的 任意 一 个 值 ， 也 可 
以 为 nil ( 室 )， 大 部 分 函数 在 失败 时 会 返回 nil。Swift 中 可 以 把 optional<T> 简写 为 T?。 

当 某 种 类 型 被 optional 包 庄 时 ， 不 能 直接 使 用 这 个 类 型 的 值 。 














7 
println(i + 2) // 错误 
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Swift 中 把 从 optional 类 型 中 取出 实际 的 值 的 操作 称 为 unwrap。 在 变量 名 后 加 上 
以 取出 值 ， 但 值 为 nil 时 会 发 生 运行 时 错误 。 








println(i! + 2) 

可 以 在 值 为 nil 时 指定 要 取 的 值 。 
printin((i??5) + 2) 

或 者 通过 组 合 使 用 let 和 if 显 式 检查 nil, 
if let i2 - if 


println(i2 - 2) 


) 








这 段 代码 里 的 i2 的 类 型 不 是 optional， 而 是 Int ， 所 以 不 需要 再 去 unwrap。 





e ! » 就 可 


最 后 介绍 一 下 使 用 “? .” 代 替 “.” 来 调用 方法 的 语法 。 使 用 “? .” 时 ， 如 果 值 不 为 空 ， 就 执 


行 这 个 值 的 方法 ， 如 果 为 nil， 则 什么 也 不 执行 ， 直 接 返 回 ni1。 

















var dog? - Dog() 
dog!.bark() // 为 nil 时 错误 
( 


dog?.bark() // 为 nil 时 返回 nil 
































像 这 样 ，Swift 不 通过 异常 机 制 ， 而 用 Optional 类 型 来 处 理 异常 情况 ( 错误 )。 我 认为 这 个 














Optional 类 型 参考 了 Haskell 的 Maybe 类 型 和 OCaml 的 Opt ion 类 型 ， 是 一 个 巧妙 利 
型 进行 错误 处 理 的 好 办 法 。 





忽视 错误 














| 静态 类 








下 面 来 思考 一 下 Streem 中 如 何 进行 异常 处 理 。 与 其 他 语言 不 同 ，Streem 有 两 个 明确 的 运行 阶 

















段 ， 即 准备 管道 的 初始 化 阶段 和 数据 在 管道 中 流转 的 管道 阶段 。 在 初始 化 阶段 如 果 发 生 异 常情 况 ， 





之 后 的 处 理 将 会 很 难 继续 运行 ， 所 以 我 决定 使 用 普通 的 异常 机 制 。 




















而 管道 阶段 中 会 有 大 量 数据 流转 。 我 们 不 希望 在 读 取 10 GB 的 数据 文件 时 ， 因 其 中 1 行 数据 的 





损坏 而 导致 整个 处 理 失 败 。 
所 以 在 管道 阶段 除非 显 式 地 进行 了 指定 ， 否 则 只 会 中 止 运 行 发 生 错 误 的 数据 ， 管 

















的 做 法 。 





萌 道 继续 进行 后 
续 的 数据 处 理 。 美 国 谷歌 公司 开发 的 云 上 的 数据 人 处理 语言 Sawzall 也 采用 了 这 种 忽视 错误 继续 处 理 
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Streem 的 异常 处 理 的 实现 





实现 Streem 方法 的 C 函数 的 原型 如 图 2-70 所 示 。argc 和 argv 是 参数 ，ret 表示 方法 的 返 
回 值 。 方 法 的 返回 值 代 表 方 法 运行 的 结果 : 成 功 时 为 0， 失败 时 返回 0 以 外 的 值 。 





ime @ee Pilvas ne Grz; Ime eree, ml ue erce, muvee 


2-70 F Streem 方法 的 函数 
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不 管 是 局 部 变量 还 是 异常 处 理 ， 都 是 现代 编程 语言 必 备 的 功能 ， 但 从 语言 设计 的 角度 来 看 ， 
么 寻常 的 功能 也 有 很 多 需要 解决 的 问题 和 需要 权衡 的 地 方 。 
语言 的 设计 就 是 在 这 种 细微 之 处 不 断 推 若 的 一 种 行为 。 








时 光 机 专栏 


看 似 很 长 其 实 很 短 的 编程 语言 的 历史 


















































本 节 是 2015 年 7 月 刊 中 刊登 的 内 容 ， 介 绍 了 相对 独立 的 局 部 变量 和 异常 处 理 这 两 部 分 








































































































在 现在 的 编程 中 ， 局 部 变量 是 常识 一 样 的 存在 ， 令 人 惊讶 的 是 ， 三 十 几 年 前 没有 局 部 变量 
的 编程 语言 到 现在 还 在 被 人 使 用 。 就 连 实际 经 历 过 那个 年 代 的 我 ， 在 重 温 那 段 历史 时 还 是 会 感 
到 吃惊 ， 所 以 一 开始 学 的 就 是 “语法 完备 ”的 编程 语言 的 人 可 能 会 更 加 震惊 。 

在 历史 尚 短 的 编程 领域 ， 这 样 的 事情 时 常 发 生 ， 以 为 是 很 久 很 久 以 前 的 事情 其 实 只 发 生 在 












































几 十 年 前 ， 以 为 是 历史 上 的 人 物 其 实 还 健在 。 
关于 异常 处 理 我 也 再 说 几 句 。 异 常 机 制 应 该 是 在 Lisp 或 者 与 其 相关 的 语言 中 诞生 的 ， 所 以 
有 四 十 多 年 的 历史 ， 但 在 Java 普及 之 前 一 直 都 没有 被 广泛 使 用 ， 这 一 点 与 垃圾 回收 相似 。 
有 了 异常 机 制 之 后 ， 错 误 处 理 的 描述 变 少 了 ， 程 序 的 可 读 性 更 强 了 ， 这 是 它 的 优点 。 但 异常 机 
制 也 不 全 是 优点 ， 程 序 有 可 能 在 意料 之 外 的 时 间 点 中 止 处 理 ， 所 以 可 能 会 有 预料 之 外 的 情况 出 现 。 

Go 以 异常 处 理 不 适合 在 并 发 编程 中 使 用 为 由 ， 没 有 引入 异常 机 制 ， 而 是 采用 了 错误 检查 
的 方法 。Streem 的 异常 处 理 原 则 是 发 生 错误 时 丢掉 那 部 分 数据 ， 灵 活 利 用 了 流 处 理 的 特性 。 
如 果 是 预料 之 外 的 数据 引起 的 错误 倒 也 没什么 问题 ， 可 如 果 忽 略 了 程序 的 bug 所 引起 的 错误 ， 
就 可 能 在 调试 上 出 现 困难 ， 所 以 今后 还 需要 去 改进 这 一 点 。 































































































































































































































































































图 灵 社区 会 员 ChenyangGao(2339083510@qq.com) 5 尊重 版 权 











-| 各 种 各 样 的 面向 对 象 


面向 对 象 编 程 是 什么 ”对 此 大 家 众说 纷 颖 ， 现 在 还 没有 一 个 明确 的 定义 。 这 次 我 们 就 




















根据 历史 来 聊 聊 面向 对 象 的 话题 ( 以 干货 为 主 ) 。 


在 1993 年 即将 开始 开发 Ruby 的 时 候 ， 我 和 同事 石 运 直 树 (之 后 的 Ruby 的 命名 者 ) 一 起 策划 
写 一 本 书 。 石 过 已 经 通过 ASCI 出 版 社 出 版 了 一 本 名 为 《面向 对 象 编程 》 的 书 , 他 想 青 写 一 本 书 作 
为 这 本 书 的 续集 。 

计划 写 的 内 容 用 一 句 话 概括 就 是 “通过 创建 面向 对 象 语言 来 学 习 面 向 对 象 编程 "， 目 的 是 让 读 
者 在 设计 和 实现 语言 处 理 器 的 过 程 中 学 习 面向 对 象 编程 的 思想 ， 从 而 深入 地 理解 面向 对 象 编程 。 

遗憾 的 是 这 个 策划 因为 “看 起 来 很 难 卖 出 去 ”而 流产 了 ， 而 当时 打算 作为 图 书 示例 编写 的 语言 
则 成 为 了 后 来 的 Ruby， 想 必 没 什么 人 知道 还 有 这 上 段 故 事 。 

面向 对 象 语言 原本 就 是 按照 设计 者 的 意图 和 想法 开发 的 ， 所 以 通过 语言 来 学 习 面 向 对 象 编程 的 
想法 也 没有 那么 炎 糕 。 

尽管 篇 幅 有 限 ,， 但 这 次 是 个 很 难得 的 机 会 ， 我 打算 在 二 十 多 年 后 的 今天 再 次 挑战 通过 语言 学 习 
面向 对 象 这 一 主题 。 首 先 从 最 早 的 面向 对 象 语言 开始 。 
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Simula 的 面向 对 象 


1967 年 公布 的 Simula 是 世界 上 最 早 的 面向 对 象 语言 。 从 Simula 这 个 名 字 就 可 以 看 出 它 是 一 门 
建 模 (模拟 ) 用 的 语言 。 这 门 语言 是 由 奥 利 -约翰 .达尔 (Ole-Johan Dahl ) 和 克利 斯 登 . 奈 加 特 
( Kristen Nygaard ) 二 人 开发 的 。 他 们 在 当时 大 学 等 机 构 中 广泛 使 用 的 Algol 的 基础 上 引入 了 类 和 对 
象 ， 以 表达 建 模 时 用 的 实体 Centity )。 这 里 所 说 的 实体 指 的 是 像 交 通 系 统 建 模 中 的 信号 灯 和 和 车辆 这 
样 的 建 模 对 象 。 

虽然 Simula 被 称 为 世界 上 最 早 的 面向 对 象 语言 ， 但 这 是 现代 人 回顾 过 去 得 出 的 结论 。“ 面 向 对 
象 编程 ”这 个 词语 被 认为 是 由 Smalltalk 的 开发 者 艾 伦 . JL (Alan Kay) “发 明 ” 的 。 从 严格 意义 上 
来 说 ， 在 Simula 的 那个 时 代 ， 面 向 对 象 编 程 这 个 词语 还 不 存在 。 

但 是 Simula 从 诞生 之 日 起 就 具备 了 现在 大 多 数 面 向 对 象 语言 所 具备 的 功能 ， 比 如 类 、 继 承 、 
对 象 、 动 态 绑 定 、 协 程 和 垃圾 回收 等 。 也 就 是 说 ， 虽 然 当 时 还 没有 面向 对 象 语 言 这 个 词语 ， 但 是 在 











































































































OD 原 书 名 是 『 和 才子 学 工 力 下 指向 也 已 和 巨人 汪 人 ]， 目 前 暂 无 中 文 版 。 一 一 译 者 注 
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这 个 词语 出 现 之 前 面向 对 象 编程 的 概念 就 已 经 存在 了 。 可 以 说 我 们 现在 使 用 的 面向 对 象 语 言 都 直接 
或 者 间接 地 受到 了 Simula 的 影响 。 在 约 五 十 年 前 ， 在 面向 对 象 这 个 词语 还 没 出 现时 ， 面 向 对 象 语 
言 Simula 就 已 面世 ， 从 某 种 意义 上 可 以 说 它 是 编程 语言 界 的 欧 帕 慈 。" 













































































开发 者 是 和 访 可 亲 的 人 


达尔 和 奈 加 特 凭借 “通过 设计 编程 语言 Simula 1 和 Simula 67， 创 造 了 面向 对 象 编程 的 基本 概 
念 ” 这 一 成 就 ， 在 2001 年 获得 了 计算 机 科学 界 的 最 高 奖 图 录 奖 。 二 人 都 于 2002 年 去 世 。 

在 他 们 获得 图 灵 奖 两 个 月 之 前 ， 我 在 丹麦 JAOO 会 议 上 见 到 了 奈 加 特 教授 。 他 是 一 位 非常 和 庄 
可 亲 的 人 ， 在 座谈 会 上 跟 我 聊 了 很 多 话题 。 

他 笑 着 对 我 说 :“ 什 么 ? 你 在 设计 语言 ? 那 应 该 是 面向 对 象 语言 吧 。 了 不 起 ! 所 有 的 面向 对 象 语 
言 都 像 是 我 的 孙子 一 样 ， 哈 哈 。 



































Smalltalk 的 面向 对 和 象 





如 果 说 Simula 是 面向 对 象 语言 的 盟 祖 ， 那 最 有 和 名、 影响 力 最 大 的 面向 对 象 语言 当 属 Smalltalk 
了 。 不 过 现在 的 开发 者 们 都 没有 直接 接触 过 Smalltalk， 跟 他 们 说 起 面向 对 象 语言 ， 他 们 可 能 最 先 想 
到 的 是 Java。 

Smalltalk 是 20 世纪 70 年 代 初 诞生 于 施乐 帕克 研究 中 心 (Xerox Palo Alto Research Center, 
Xerox PARC ) 的 一 种 面向 对 象 语言 。 面 向 对 象 编程 这 个 词语 就 是 在 Smalltalk 的 开发 过 程 中 诞生 的 。 

Smalltalk 虽然 受到 了 Simula 的 影响 , 但 是 它 最 主要 的 目标 是 成 为 Dynabook”， 即 儿童 也 可 以 使 
用 的 未 来 计算 机 上 的 语言 。 

于 是 开发 者 们 将 重点 放 在 了 儿童 也 容易 理解 、 可 以 直接 操作 的 “对 象 ” 上， 同时 受到 当时 作 
为 教学 语言 兴起 的 LOGO 语言 的 影响 ， 他 们 设计 了 以 “通过 向 对 象 发 送 消息 进行 操作 ”这 种 模型 
为 中 心 的 语言 。 由 “ 提 笔 ” “前进 100 步 “ 向 右 转 120 度 ” 等 命令 构成 的 LOGO 的 海鱼 绘图 ， 在 
Smalltalk 中 也 可 以 通过 “海龟 ” 对 象 和 对 海龟 的 命令 这 一 模型 实现 。 





































































































用 Smalltalk 表达 LOGO 





图 3-1 是 用 LOGO 编写 的 海 包 绘 图 的 程序 ， 图 3-2 是 用 Smalltalk 编写 的 海龟 绘图 的 程序 。 



































(D “ 欧 帕 花 ” 指 的 是 当时 那个 年 代 的 技术 不 可 能 加 工 出 来 的 、 颠 履 常 识 的 出 土 文物 。 
2) Dynabook 是 Smalltalk 作者 艾 伦 : 凯 在 1968 年 提出 的 可 以 带 着 跑 的 电脑 的 概念 ， 主 要 目标 使 用 者 是 儿童 ， 帮 助 儿 
童 学 习 。 一 一 译 者 注 
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FORWARD 100 onsite cr orae O 
RIGHT 120 qunee he eve die). 
FORWARD 100 Turtle go: 100. 
RIGHT 120 ue um END). 
FORWARD 100 uelee yon (000). 
RIGHT 120 ut i umn IP IQ 
FORWARD 100 ustele ou: i910); 
图 3-1 用 LOGO 编写 的 海龟 绘图 图 3-2 用 Smalltalk 编写 的 海龟 绘图 





这 里 需要 简单 说 明 一 下 Smalltalk 的 语法 。Turtle home 部 分 的 意思 是 “向 Turtle 对 象 发 
送 home 消息 ”。Turtle 对 象 响应 该 消息 ， 把 光标 移动 到 home 位 置 。 
带 参 数 的 消息 后 面 有 “:” 符 号 。 比 较 特 殊 的 是 ， 当 有 多 个 参数 时 ， 需 要 在 每 个 参数 前 带 上 
消息 。 假 设 有 一 条 消息 可 以 在 go 的 同时 指定 颜色 ， 那 么 就 需要 在 指定 距离 的 同时 指定 颜色 ， 这 
条 消息 的 定义 就 会 变 成 “go : color :”。 实 际 调用 此 消息 的 代码 大 概 如 下 所 示 ， 其 中 “#req” 是 
Smalltalk 的 符号 的 写法 。 











X 
































obj go: 100 color: aael 





这 种 写法 看 上 去 与 其 他 语言 的 关键 字 参 数 很 相似 ， 但 它 既 不 能 省 略 ， 也 不 能 改变 顺序 。 我 们 应 
该 把 “go :color :” 看 作 一 条 分 开 写 的 消息 。 在 Smalltalk 中 ， 包 括 控制 结构 在 内 的 几乎 所 有 的 处 
理 都 是 通过 发 送 消息 实现 的 。 这 也 是 Smalltalk 的 一 个 特征 。 














Ruby 与 Smalltalk 相似 吗 


按照 发 布 年 份 ，Smalltalk 有 Smalltalk-72, Smalltalk-76 和 Smalltalk-80 三 个 版 本 ， 现 在 说 的 
Smalltalk 就 是 指 最 后 的 版 本 Smalltalk-80( 及 其 派生 版 )。 版 本 的 每 次 进化 都 会 让 它 愈 发 接近 成 人 使 
用 的 语言 和 环境 ， 为 儿童 设计 的 表情 文字 等 功能 则 渐渐 消失 了 。 

多 年 前 我 与 Smalltalk 的 开发 者 凯 一 起 吃 午饭 ， 他 对 我 说 Smalltalk 受到 Lisp 很 大 影响 , 已 经 
跟 当 初 设想 的 不 一 样 了 ， 还 说 Ruby 和 Smalltalk-76 有 一 点 像 。Smalltalk-76 没 怎么 公开 ， 资 料 也 很 
少 ， 所 以 我 不 是 很 清楚 它 和 Ruby 到 底 相像 到 何 种 程度 ， 但 他 的 这 句 话 给 我 留 下 了 深刻 的 印象 。 




















Actor 的 面向 对 象 


受到 Simula 的 面向 建 模 以 及 Smalltalk 的 面向 对 象 的 影响 ， 美 国 麻 省 理工 学 院 的 卡尔 休 伊 特 
(Carl Hewitt ) 在 1973 年 建立 了 Actor 模型 。 
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在 Actor 模型 中 ， 各 个 对 象 独立 进行 计算 ， 对 象 之 间 的 通信 通过 消息 进行 。 由 于 Smalltalk 的 消 
息 发 送 需要 等 待 结果 返回 ， 所 以 是 “同步 的 "。 而 在 Actor 中 对 象 间 的 通信 则 是 异步 的 ， 只 需 发 送 消 
息 即 可 ， 结 果 会 以 另 一 条 消息 的 形式 返回 。 

Actor 模型 是 基于 并 行 计算 机 会 在 不 久 的 将 来 出 现 这 一 预测 诞生 的 。 这 种 并 行 计算 机 由 成 百 
上 千 的 微 处 理 器 组 成 ， 每 个 处 理 器 都 有 自己 的 本 地 内 存 ， 通 过 高 性 能 的 通信 网 络 进行 通信 。 实 际 
上 在 1973 年 那个 时 间 点 的 “不 久 的 将 来 ”并 没有 出 现 这 种 计算 机 ， 所 以 Actor 模型 没 能 迅速 普 
及 ,但 是 在 40 多 年 后 的 今天 ， 由 于 多 核 、 众 核 以 及 云 计算 的 出 现 ， 休 伊 特 的 预测 正在 渐渐 变 为 
现实 。 

































































Erlang 也 采用 了 Actor 模型 





提供 Actor 模型 的 语言 在 逐渐 增加 ， 比 如 Erlang 就 是 以 Actor 模型 为 中 心 设计 的 语言 。 尽 
管 Actor 模型 是 受到 面向 对 象 思想 的 强烈 影响 提出 来 的 ,但 Erlang 的 设计 者 乔 … 阿姆斯特朗 (Joe 
Armstrong ) 却 发 表 过 面向 对 象 没 用 的 言论 。 不 过 时 隔 40 年 ， 他 似乎 又 对 休 伊 特 的 Actor 模型 有 了 
新 的 发 现 ， 他 说 :“Erlang 的 进程 是 对 象 ， 我 发 现 Erlang 才 是 真正 的 面向 对 象 。” HEAR! 









































CLOS 的 面向 对 象 




















Lisp 是 一 门 灵活 度 非 常 高 的 语言 ， 非 常 适合 用 来 测试 编程 中 的 新 功能 。 面 向 对 象 编程 也 不 例 
外 , 在 Simula 和 Smalltalk 发 明 出 面向 对 象 编程 的 概念 之 后 ， 各 式 各 样 的 面向 对 象 系统 就 在 各 种 
Lisp 语言 处 理 器 上 进行 过 实验 。 这 些 面 向 对 象 系统 中 成 就 最 大 的 当 属 CommonLisp Object System 
( CLOS )。 

CLOS 有 如 下 特征 。 












































e 多 重 继承 ( multiple inheritance ) 
e 实例 方法 (singular method ) 
e 多 重 方法 ( multimethod ) 


e 方法 组 合 (method combination ) 




















面向 对 象 编程 中 的 继承 是 指 从 现 有 的 类 继承 功能 ， 通 过 添加 、 修 改 功能 来 创建 新 的 类 。 

包括 Ruby 和 Java 在 内 的 许多 语言 只 能 从 一 个 类 继承 功能 ， 这 种 继承 方式 被 称 为 单一 继承 〈 或 
者 叫 单 重 继承 )。 

多 重 继承 是 指 不 是 从 一 个 ， 而 是 从 多 个 类 继承 。CLOS 和 C++ 支持 多 重 继承 。 要 继承 的 类 从 一 
个 变 成 两 个 以 上 ， 可 以 说 是 比较 自然 的 扩展 ， 但 实际 上 没有 这 么 简单 。 继 承 两 个 以 上 的 类 时 会 出 现 
很 多 问题 ， 比 如 方法 名 冲突 、 类 层次 结构 从 简单 的 树 结构 变 成 网 状 结构 等 。Java 和 Ruby 为 了 避免 
这 样 的 问题 ， 采 用 了 单一 继承 的 方式 。 
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而 CLOS 则 设计 了 Mix-in， 引 入 了 化 解 予 盾 的 结构 。CLOS 的 Mix-in 像 是 多 重 继承 使 用 方法 上 
的 “君子 协定 ”， 而 Ruby 则 选择 以 模块 的 include 的 形式 在 语言 层面 进行 特殊 的 处 理 。 

“实例 方法 ”不 是 指 类 层面 ， 而 是 指 为 某 个 特定 的 对 象 定义 的 方法 。CLOS 中 用 下 面 这 样 的 代 
人 码 代 蔡 参数 的 类 名 ， 就 可 以 为 对 象 ( 值 ) 定义 特有 的 方法 ( 这 里 是 eql )。 





























(eql 值 ) 


独立 于 类 的 方法 


多 重 方法 是 属于 多 个 类 的 方法 。 在 很 多 面向 对 象 语言 中 ,方法 属于 类 ， 通 过 类 的 对 象 来 调用 方 
法 。 可 是 在 CLOS 中 , 方法 相当 于 函数 ,根据 方法 的 所 有 参数 所 属 的 类 来 选择 合适 的 方法 。 
我 们 通过 一 个 实际 的 例子 来 加 深 理 解 。 首 先 ，CLOS 的 方法 调用 看 起 来 与 普通 的 函数 调用 完全 相同 。 






































(length obj) 








运行 上 面 的 代码 ， 在 属于 名 为 length 的 函数 (由 于 它 可 以 代表 多 个 方法 ， 所 以 被 称 为 广义 函 
数 ) 的 多 个 方法 中 ， 匹 配 obj 类 的 那个 方法 会 被 执行 。 如 果 用 其 他 的 面向 对 象 语言 进行 调用 ， 代 
码 就 会 变 成 下 面 这 样 ， 可 以 看 到 顺序 发 生 了 变化 。 




















obj.length() 





可 如 果 参 数 有 多 个 ， 情 况 就 不 一 样 了 ， 比 如 下 面 这 行 代码 。 














(plus obj1 obj2) 











上 面 的 代码 可 以 调用 拥有 加 法 计算 功能 的 广义 函数 ， 而 具体 执行 哪个 方法 则 由 所 有 参数 的 类 来 
决定 。obj1 和 obj2 的 类 型 是 整数 和 浮 点 数 的 排列 组 合 ， 每 种 组 合 都 有 各 自 的 方法 定义 。 这 样 就 
不 需要 根据 参数 的 类 型 进行 条 件 判 断 ， 可 以 选择 更 加 合适 的 处 理 方式 。 这 与 C++ 和 Java 的 方法 重 
载 (overload) 有 些 相似 ， 不 过 多 重 方法 的 选择 与 普通 的 ( 根据 第 一 个 参数 ) 方法 选择 一 样 ， 都 是 
动态 进行 的 。 

这 就 发 生 了 天 翻 地 覆 的 变化 一 一 面向 对 象 语言 中 常见 的 “ 先 有 类 再 有 属于 类 的 方法 ”这 一 结构 
完全 不 见 了 ， 取 而 代 之 的 是 “ 既 有 类 又 有 独立 于 类 的 方法 ”这 样 的 结构 。 虽 然 也 有 人 质疑 过 这 样 是 
和 否 还 能 叫 面向 对 象 ， 但 是 由 于 多 重 方法 能 够 通过 参数 自动 进行 方法 选择 ， 而 且 与 现 有 的 Lisp 的 一 致 
性 也 很 高 ， 所 以 Lisp 界 接受 了 这 一 结构 。 但 是 ， 除 了 2015 4E 12 月 正式 发 布 的 Perl 6，Lisp 之 外 的 
语言 基本 没有 采用 多 重 方法 。 
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大 规模 的 方法 组 合 


CLOS 的 最 后 一 个 特征 是 方法 组 合 ， 即 当 有 多 个 同名 且 可 用 的 方法 时 ， 考 虑 如 何 组 合 这 些 方 法 
进行 调用 。 
许多 面向 对 象 语言 都 可 以 在 方法 中 使 用 super 等 关键 字 来 调用 父 类 的 方法 ， 但 是 CLOS 中 由 
于 多 重 继承 的 关系 ， 不 能 以 这 种 简单 的 方式 来 解决 这 个 问题 ， 于 是 CLOS 干脆 就 允许 自由 定义 方法 
的 组 合 了 。 这 实在 是 太 灵 活 了 。 
举例 来 说 ， 按 照 标准 的 方法 组 合 方式 ， 方 法 调用 按照 以 下 顺序 进行 。 

首先 ， 在 属于 被 调用 的 广义 函数 的 方法 中 ， 对 匹配 参数 的 可 用 方法 按照 优先 级 进行 排序 。 优 先 
级 规则 是 : 1 是 “整数 ”， 如 果 把 “整数 ” 当 作 “ 数 ”的 子 类 ,那么 处 理 整 数 的 方法 要 比 处 理 数 的 方 
法 优先 级 更 高 ( Lisp 语法 上 “更 加 匹配 ”)。 

其 次 ,按照 匹配 度 由 高 到 低 的 顺序 调用 有 Y A 
“around” 标签 的 方法 (如果 存 在 的 话 )， 调 用 顺序 
如 图 3-3 所 示 。 在 around 方 法 内 部 ， 通 过 下 面 这 行 
代码 就 可 以 根据 优先 级 顺序 调用 下 一 个 方法 。 如 果 不 



























































:around 的 调 (call-next-method) 

















iR 





(call-next-method) 





存在 还 未 执行 的 around 方法 ， 则 进入 下 一 步 。 around | 








(call-next-method) 



























































接 下 来 ,按照 匹配 度 由 高 到 低 的 顺序 调用 有 



































:after 的 调 

“: before” 标 签 的 方法 (丢弃 返回 值 )， 之 后 调用 没 
有 标签 的 匹配 度 最 高 的 方法 。 与 around 方法 一 样 ， 

Hi ca11-next-method 就 可 以 调用 后 面 匹 配 的 方法 。 











最 后 ， 按 匹配 度 从 低 到 高 的 顺序 开始 运行 有 
“:after” 标 签 的 方法 ( 丢弃 返回 值 )。 | 基础 方法 的 用 Oe 

after 方 法 运行 结束 后 ， 返 回 到 around 方法 ， 
然后 一 直 执 行 到 最 后 ， 这 样 最 终 的 返回 值 就 会 是 匹配 
度 最 高 的 around 方法 的 返回 值 。 

这 种 方法 组 合 是 面向 切面 编程 的 基础 。 实 际 上 ，Java 面向 切面 编程 库 Aspect) 的 开发 者 就 是 
CLOS 的 设计 者 之 一 ， 即 格雷 戈 尔 ' 基 克 泽 尔 (Gregor Kiczale )。 














3-3 CLOS 的 标准 方法 组 合 
































Ruby 也 借鉴 了 部 分 功能 





老实 说 ，CLOS 的 面向 对 象 功 能 非常 多 ， 在 大 部 分 情况 下 是 超出 需要 的 ， 我 们 基本 上 没有 什 
么 机 会 可 以 使 用 到 全 部 功能 。 可 是 纵 观 面向 对 象 编 程 的 历史 ， 我 认为 像 CLOS 这 样 经 过 深入 研究 
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进行 大 胆 设计 的 语言 没有 第 二 个 。 而 且 CLOS 提供 的 那些 未 被 其 他 面向 对 象 语言 引入 的 “独特 
的 ”功能 ， 从 某 种 意义 上 来 说 是 “绝版 ”的 技术 ,今后 在 设计 面向 对 象 语言 时 ， 有 很 多 地 方 都 值 
得 借鉴 。 实 际 上 Ruby 提供 的 Mix-in 与 实例 方法 ， 以 及 Module#prepend 等 功能 就 是 借鉴 CLOS 
设计 的 。 

虽然 现在 CLOS 没有 被 广泛 使 用 ， 但 是 这 并 不 代表 今后 它 不 会 流行 起 来 。 即 使 没有 流行 起 来 ， 
CLOS 发 明 的 功能 也 可 能 会 被 新 的 语言 采用 。 


























C++ 的 面向 对 象 


接 下 来 要 谈 的 是 同 为 面向 对 象 语 言 但 背景 却 极为 不 同 的 CHo CH E C 的 基础 上 增加 了 面向 
对 象 功 能 。 很 多 面向 对 象 语言 都 受到 了 Smalltalk 的 影响 ,但 令 人 惊讶 的 是 ， 在 C++ 身上 却 看 不 到 
这 种 影响 。 就 拿 术语 来 说 ，C++ 中 父 类 不 叫 父 类 ， 叫 “ 基 类 ”(base class ) ; FAKU, n| "Jk 
生 类 ”( derived class ) + 由 此 就 可 以 感受 到 其 文化 的 不 同 。 

我 在 2004 年 和 C++ 的 设计 者 本 贾 尼 ' 斯 特 劳 斯 特 鲁 普 〈Bjarne Stroustrup ) 进行 过 一 次 面 对 
面 的 交流 。2003 年 在 丹麦 JAOO 会 议 ” 期 间 我 见 过 他 ， 他 对 我 说 :“ 我 的 学 生 只 知道 CH+， 不 了 解 
Ruby， 我 想 让 你 来 给 他 们 讲 讲 。” 于 是 我 在 他 任职 的 美国 德州 农工 大 学 举办 了 讲座 。 

那 时 候 我 向 他 问 起 了 C++ 的 起 源 ， 他 回答 我 说 :“ 我 在 英国 剑桥 大 学 读 研究 生 的 时 候 ， 写 论文 

时 需要 进行 建 模 。 原 本 我 想 使 用 本 科 时 使 用 的 Simula， 但 当时 Simula 速度 太 慢 根本 没 法 用 ， 所 以 
我 就 用 了 BCPL (C 语言 的 前 身 )。 后 来 到 AT&T 的 贝尔 实验 室 工 作 之 后 ， 为 了 实现 能 用 的 Simula, 
我 就 开发 了 C with Class 语言 ， 这 门 语言 后 来 就 成 为 了 C++。 
岂 就 是 说 ，C++ 是 没 怎么 受到 Smalltalk 影响 的 Simula 的 “直系 子孙 ”， 所 以 才 故 意 不 使 用 
受到 Smalltalk 影响 的 术语 。 另 外 ， 很 多 面向 对 象 语言 会 为 了 灵活 性 而 牺牲 性 能 ， 在 这 样 的 背景 
F, CH 还 是 永远 将 性 能 放 在 第 一 位 ， 这 一 点 可 能 与 斯 特 劳 斯 特 鲁 普 有 过 “Simula 太 慢 ”的 体 
验 有 关 。 

当时 的 C++ 没有 异常 机 制 ， 没 有 多 重 继承 ， 也 没有 模版 ， 是 一 门 非常 简单 的 语言 ， 所 以 它 作 
为 静态 类 型 的 面向 对 象 语言 在 实用 性 上 略 显 不 足 。 不 过 之 后 的 进步 让 人 刮目相看 ， 现 在 它 已 经 不 单 
单 是 一 门面 向 对 象 语言 了， 其 至 可 以 说 是 一 门 有 效 使 用 模版 的 泛 型 语言 ， 但 也 存在 功能 太 多 、 较 为 
复杂 的 缺点 。 

C++ 在 以 结构 化 编程 为 目标 的 C 语言 的 基础 上 定义 了 面向 对 象 ， 与 用 对 象 实体 和 消息 发 送 模型 








































































































































































































我 参加 过 2001 年 和 2003 年 的 JAOO 会 议 。 前 面 提 到 过 ， 在 2001 年 的 会 议 上 我 见 到 了 奈 加 特 教授 ， 而 且 会 议 期 
间 发 生 了 “9 11” 疏 人 怖 缆 击 事件 ， 所 以 那 次 会 议 给 我 留 下 了 很 深刻 的 印象 。 另 外 在 那 次 会 议 上 我 也 第 一 次 见 到 
TH Ruby 的 普及 做 出 卓越 贡献 的 戴 维 . 托马斯 (Dave Thomas )。 在 2003 年 的 会 议 上 我 见 到 了 斯 特 劳 斯 特 鲁 普 并 
受 邀 去 他 任职 的 大 学 举办 讲座 ， 还 见 到 了 MVC 模型 之 父 特 里 夫 ' 雷 因 斯 高 (Trygve Reenskaug )， 这 两 件 事 让 我 
印象 深刻 。 
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进行 编程 的 Smalltalk 可 以 说 是 一 时 瑜 亮 。 我 想 过 去 的 面向 对 象 之 争 就 是 因为 站 在 各 自立 场 上 的 人 

















没有 充分 到 











E 解 对 方才 发 生 的 。 


Java 的 面向 对 象 


介绍 完 Simula, Smalltalk, CLOS 和 C++， 我 觉得 已 经 足够 了 ， 但 这 里 还 想 再 简单 介绍 一 下 其 








他 有 和 名 的 本 








| 向 对 象 语言 。 











Java 是 面向 对 象 功能 比 C++ 更 接近 Smalltalk 一 些 的 编程 语言 。 它 不 像 C++ 那样 特意 避 开 
Smalltalk 的 术语 ， 还 是 按照 一 般 的 习惯 来 称呼 父 类 和 子 类 。 
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承 ”， 不 允许 “实现 上 的 多 重 继承 ”， 给 人 一 种 严谨 的 印象 。 





Ruby 的 面向 对 象 


关于 Ruby 我 也 再 顺便 说 几 句 。 在 设计 思想 层面 Ruby 和 Java 一 样 ， 都 是 处 于 C++ 和 Smalltalk 


之 间 的 位 置 的 语言 ， 
加 浓厚 ， 比 如 Ruby f method missing 功能 就 是 取 自 


的 实现 。 











Java 作为 面向 对 象 语言 的 特征 跟 C++ 很 像 ， 而 且 还 积极 引入 了 Lisp 系 语言 常见 的 垃圾 回收 功 
能 ( 基于 性 能 上 的 考虑 ，C++ 没有 采用 这 项 功能 )。 为 外 ， 利 用 接口 ，Java 允许 “ 事 





实 上 的 多 重 继 

















但 是 Ruby 比 Java 更 接近 Smalltalk。 相 比 C++，Ruby 的 面向 消息 的 色彩 
Smalltalk 的 DoesNotUnderstand 消息 


Ruby 不 仅 受到 了 Smalltalk 的 影响 ， 还 受到 CLOS 的 影响 ,继承 了 实例 方法 和 Mix-in 等 功能 。 
没有 引入 CLOS 的 多 重 方法 和 方法 组 合 等 新 颖 上 且 影响 范围 较 大 的 功能 。 之 所 以 这 么 做 ， 
是 因为 Ruby 的 目标 不 是 成 为 实验 用 的 语言 ， 而 是 成 为 实用 的 面向 对 象 语言 。 


不 过 Ruby 


设计 方式 ， 














以 避免 给 用 户 带 来 混乱 。 








因此 我 采用 了 保守 的 
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时 光 机 专栏 
面向 对 象 已 经 司空 见 惯 了 吗 























本 节 是 2015 年 11 月 刊 中 刊登 的 内 容 。 我 在 本 节 根 据 历 史 从 各 种 角度 讲解 了 面向 对 象 ， 完 
没有 涉及 Streem 语言 。 
面向 对 象 的 概念 非常 混乱 ， 在 还 没有 达成 严格 的 定义 之 前 很 多 人 就 开始 了 讨论 ， 所 以 很 容 
易 发 生 偏离 讨论 主题 、 场 面 混 乱 等 情况 。 面 向 对 象 是 考虑 问题 的 方法 的 指导 ， 在 各 个 语言 之 间 
会 有 微妙 的 差别 ， 因 此 和 背景 不 同 的 人 谈 不 到 一 起 也 是 情理 之 中 的 事情 。 
话 虽 如 此 ， 但 讨论 没有 丝毫 进展 也 是 不 行 的 ， 所 以 我 觉得 偶尔 像 这 样 从 全 局 进行 思考 也 是 
很 有 意义 的 。 在 本 节 中 ， 我 有 意识 地 避免 偏向 某 一 门 语 言 ， 尽 可 能 地 做 到 客观 公正 。 虽 然 这 此 
语言 之 中 有 一 门 是 我 设计 的 ， 平 心 而 论 ， 很 难 做 到 完全 平等 ， 但 我 依然 以 一 个 语言 爱好 者 的 身 
份 编写 了 本 节 。 
实际 上 ， 近 些 年 已 经 没有 关于 面向 对 象 的 争论 了 ， 最 近 拿 函数 式 编程 和 面向 对 象 编程 进行 
对 比 的 事情 反而 多 了 起 来 。 
我 想 可 能 是 因为 面向 对 象 编程 已 经 有 些 司 空 见 惯 了 吧 。 关 于 结构 化 编程 ， 几 十 年 前 也 曾 有 
过 激烈 的 讨论 ， 但 现在 它 已 经 成 为 常识 ， 所 以 也 就 没有 人 再 争论 了 。 同 样 的 事情 也 正 发 生 在 面 
向 对 象 编程 的 身上 。 作 为 一 名 资深 的 面向 对 象 编程 迷 ， 我 还 真 感 到 一 丝 寂 寞 。 

























































































































































































































































































































































































3-1 节 回顾 了 历史 ， 了 解 了 各 种 编程 语言 的 面向 对 象 功 能 ， 本 节 将 开始 设计 Streem 的 面 
































向 对 象 功 能 。 我 们 会 实现 动态 绑 定 ， 根 据 实际 数据 的 种 类 选择 适当 的 处 理 。 

















马上 就 要 开始 设计 Streem 的 面向 对 象 功 能 了 。 不 过 Streem 受到 了 也 数 式 语言 的 强烈 影响 ， 如 
果 把 其 他 语言 的 面向 对 象 功能 原封 不 动 地 移植 到 Streem 中 ， 想 必 也 不 是 很 好 用 ， 所 以 我 们 先 来 复 
习 一 下 Streem 的 特征 ， 然 后 再 思考 什么 样 的 面向 对 象 功 能 才 是 最 适合 Streem 的 。 






























































Streem 中 需要 动态 绑 定 








Streem 最 大 的 特征 是 大 部 分 对 象 是 不 可 变 的 ， 也 就 是 不 能 更 新 的 。 大 多 数 面 向 对 象 语言 会 通过 
修改 对 象 的 属性 〈 实例 变量 等 ) 来 进行 计算 处 理 ， 也 就 是 说 ， 把 状态 封装 在 对 象 里 ， 从 而 使 状态 更 
加 容易 处 理 。3-1 节 介 绍 的 最 古老 的 面向 对 象 语言 Simula 也 是 如 此 ， 为 了 管理 模拟 的 状态 而 引入 了 
对 象 ， 为 了 统一 定义 多 个 同 种 对 象 的 行为 而 引入 了 类 。 

但 是 在 受到 函数 式 语言 影响 的 Streem 中 ， 值 在 初始 化 之 后 就 不 能 再 被 修改 ， 也 就 是 说 ， 在 
Streem 中 根本 不 会 发 生 “ 状 态 的 管理 "。 既 然 没 有 状态 管理 ， 不 会 产生 副作用 , I Streem 就 没有 什 
么 必要 去 引入 传统 的 面向 对 象 了 。 

那么 在 Streem 这 样 的 语言 中 ， 面 向 对 象 编程 完全 没有 用 吗 ? 

并 非 如 此 。 在 面向 对 象 编程 的 多 个 特性 中 ， 动 态 绑 定 不 会 带 来 副作用 ， 比 较 适 合 Streem 这 种 
语言 。 

动态 绑 定 是 指 根据 实际 数据 的 种 类 选择 适当 的 处 理 。 比 如 ,不 管 变量 a 的 值 是 字符 串 还 是 数 
组 ， 只 要 调用 1ength 方法 ,就 可 以 求 得 它 的 长 度 。 计 算 字符 串 长 度 的 处 理 和 计算 数组 长 度 的 
处 理 的 内 部 实现 完全 不 同 ， 但 是 开发 者 不 用 在 意 这 种 内 部 实现 的 细节 ， 只 需 在 “计算 长 度 ” 这 一 
抽象 层面 考虑 即 可 。 如 果 要 在 Streem 中 引入 面向 对 象 功 能 ， 那 么 这 个 动态 绑 定 功 能 是 我 首先 想 引 
入 的 。 





































































































广义 函数 


在 引入 动态 绑 定 时 ， 为 了 使 其 与 Streem 的 类 似 于 函数 式 语言 的 性 质 相 匹配 ， 我 们 首先 引入 广 
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义 函 数 。 广 义 函 数 (在 3-1 节 也 介绍 过 ) 是 指 CommonLisp 等 语言 中 采用 的 根据 参数 的 类 型 选择 内 
部 处 理 的 函数 。 比 如 在 计算 数据 长 度 时 ， 运 行 下 面 这 行 代码 ， 就 可 以 根据 a 的 数据 类 型 选择 合适 的 
计算 长 度 的 处 理 (方法 )。 








length (a) 


CommonLisp 不 仅 根 据 第 一 个 参数 ， 还 会 根据 所 有 的 参数 类 型 来 选择 方法 。 不 过 我 决定 先 让 
Streem 只 根据 第 一 个 参数 的 类 型 来 选择 方法 ( 偷 个 懒 )。 

广义 函数 可 以 在 保持 函数 调用 这 一 形式 的 基础 上 实现 动态 绑 定 。 

在 定义 方法 时 ， 像 下 面 这 样 指定 参数 的 类 型 。 如 果 名 为 length 的 广义 函数 不 存在 ， 就 创建 这 
个 函数 ， 并 向 这 个 广义 函数 注册 处 理 array 类 型 的 方法 。 省 略 类 型 则 意味 着 可 以 接受 任意 类 型 的 
数据 。 















































def length(a:array) ( ... ) 





由 于 方法 定义 本 身 可 能 会 带 来 副作用 ， 所 以 我 就 让 Streem 只 能 在 顶层 作用 域 ( 以 及 后 面 会 介 
绍 的 命名 空间 ) 定义 方法 。 像 Ruby 那样 的 带 条 件 的 方法 定义 是 不 允许 出 现在 Streem 中 的 。 























减少 类 功能 的 增加 所 带 来 的 副作用 


Ruby 允许 事后 向 类 中 添加 功能 。 现 在 广泛 使 用 的 “猴子 补丁 ”( monkey patch ) 技术 就 利用 了 
这 一 特性 来 扩展 现 有 类 的 功能 。 使 用 Ruby on Rails 时 常用 的 Activesupport 库 就 是 使 用 猴子 补 
丁 来 向 现 有 的 类 添加 各 种 功能 的 。 由 此 ， 我 们 就 可 以 编写 出 下 面 这 种 与 普通 的 Ruby 代码 截然 不 同 
的 程序 。 





















































2.days.ago 




















猴子 补丁 虽然 方便 ,但 是 也 有 副作用 。 如 果 事 后 毫 无 限制 地 向 类 中 添加 方法 ， 那 么 名 称 相同 功 
能 不 同 的 方法 就 可 能 会 保存 在 多 个 库 中 。 如 此 一 来 ， 在 使 用 这 样 的 两 个 库 时 ， 就 可 能 会 出 现 意 想 不 
到 的 问题 。 

为 了 避免 这 样 的 问题 ，Ruby 2.0 引入 了 Refinement 功能 。Refinement 的 作用 是 只 在 某 个 特定 的 
作用 域内 向 类 增加 方法 。 

图 3-4 展示 了 Refinement 的 使 用 方法 。 

大 家 看 明白 了 吗 ? 在 using 指定 的 作用 域 之 外 ， 类 没有 变化 ,保持 了 原 有 的 行为 ， 但 是 在 
using 指定 的 作用 域内 (从 using 出 现 到 文件 结束 )，Refinement 生效 ， 增 加 的 功能 可 见 。 这 个 切 
换 是 静态 的 ， 即 使 是 同一 个 对 象 ， 在 作用 域内 外 也 会 做 出 不 同 的 行为 。 这 样 我 们 就 不 需要 担心 名 称 





















































的 冲突 ， 以 及 方法 增加 所 带 来 的 副作用 了 。 





不 容易 实现 的 Refinement 


尽管 目前 Refinement 功能 非常 粗糙 ， 将 来 还 需 
要 对 其 功能 进行 扩展 但 今后 它 应 该 会 取代 猴子 补 
T. Refinement 功能 目前 是 非 主 流 的 ， 所 以 很 少 有 
语言 会 提供 类 似 的 功能 。 只 有 Java 中 提供 了 进行 类 
似 的 功能 扩展 的 名 为 Classbox 的 处 理 占 ， 还 有 某 种 
Lisp 方言 中 提供 了 类 似 功能 的 Selector Namespace。 

此 外 ，Objective-C 的 分 类 功能 ， 以 及 C# 和 
Swift 的 类 扩展 ， 也 都 与 Refinement 有 些 相 似 。 

要 实现 Refinement 非常 困难 。C# 和 Swift 可 以 
使 用 静态 类 型 的 信息 实现 Refinement, 但 在 Ruby 中 
一 切 都 要 在 运行 时 解决 ， 而 且 还 不 允许 Refinement 
的 实现 使 性 能 变 低 。 从 我 说 要 在 Ruby 中 实现 
Refinement 功能 到 实际 引入 ， 总 共 花 了 将 近 十 年 的 时 
间 ， 在 此 期 间 我 一 直 没 有 想到 高 效 的 实现 方法 。 前 田 
修 吾 也 花 了 很 长 时 间 才 帮 我 想 出 高 效 的 实现 方法 。 































































































广义 函数 与 Refinement 


但 是 ， 令 人 意外 的 是 ， 采 用 广义 函数 可 以 简单 地 
实现 与 Refinement 相同 的 效果 。 

广义 函数 从 外 表 来 看 只 是 作为 函数 被 处 理 。 与 
Refinement 相同 的 效果 是 指 ， 可 以 根据 作用 域 的 不 同 
使 用 同一 个 名 称 调用 不 同 的 函数 。 很 多 支持 函数 调用 
的 语言 已 经 以 “作用 域 ” 或 者 “命名 空间 ”为 名 实现 
了 这 项 功能 。 

所 以 我 打算 在 Streem 中 引入 命名 空间 的 概念 ， 
实现 与 Refinement 相同 的 效果 。Streem 的 命名 空间 
的 语法 如 图 3-5 所 示 。 
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# 原来 的 类 只 有 foo 方 法 


class Foo 














def foo 
INEO 
end 
end 


4 成 为 Refinement 单 位 的 模块 
module FooRefine 
4 对 Foo 类 进行 refine ( 扩展 ) 
refine Foo do 
# 扩展 Foo 类 
def foo 
D EOG ForS 
# 用 super 调 用 原来 的 方法 
super 












































end 


# 增加 新 的 方法 
Si lorus 
P -par 
enai 
end 
end 


4 创建 oo 类 的 对 象 


f = Foo.new 

















FEoo 类 的 foc 方 法 
£0 Wm eme 











ERG 





WE XbarJik 





4 Foo 类 中 没 
4 foo.bar 





























# 用 using 使 Refinement 生 效 





using FooRefine 

















# 从 这 里 开始 扩展 的 E00 与 bar 有 效 
EO 4 2» :foo refineWMn:foo 
f.bar Wm em 











:bar 


图 3-4 Ruby 的 Refinement 


# Error! 因为 方法 不 存在 
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namespace 文 = namespace < 名 称 > { 
dll... 
} 
import X = import < 名 称 > 
def X% = def < 名 称 > (< 名 称 > [:< 名 称 >] es A ( 
< 语句 > . 
} 
名 前 2 [A-Za-z ][A-Za-z0-9 ]* 


图 3-5 Streem 的 命名 空间 的 语法 


只 看 语法 定义 可 能 不 太 容 易 理解 。 图 3-6 4 用 namespace 语 句 定义 名 为 Lest_ns 的 命名 空间 


展示 了 实际 的 程序 示例 ， 其 中 以 注释 的 形式 namespace test ns { 
# 用 import 导 入 其 他 的 命名 空间 


































































































写 下 了 想 让 程序 实现 的 内 容 。 du) ides 
p p impor evelopment ns 
4T à dr H gE T 
使 用 命名 空间 可 以 轻松 地 创建 只 能 在 某 m development ns 提供 的 变量 和 函数 可 见 
个 特定 作用 域内 可 见 的 函数 ， 这 就 意味 着 即 
使 不 引入 Refinement 这 种 很 难 实现 的 功能 ， # 函数 定义 
也 可 以 实现 以 下 两 个 效果 : 定义 只 在 某 个 作 def print (message) { 


puts(stderr, message) 


用 域内 有 效 的 方法 (Swift 和 CH 的 类 扩展 所 } 


实现 的 效果 ) ; 临时 修改 限定 在 某 个 作用 域 ) 
内 的 方法 的 行为 (Refinement 所 实现 的 效果 ) 








































































































(图 3-7)。 图 3-6 Streem 的 命名 空间 的 程序 示例 
# 全 局 函数 foo super (a) 
def foo(a) { ) 
# 把 参数 转换 为 字符 串 输出 # 只 在 该 命名 空间 内 有 效 的 函数 
puts(to s(a)) def bar(a) ( 
] puts ("barNn") 
} 
# 用 来 进行 “类 扩展 ”的 命名 空间 } 
namespace extend { 
# 重 写 现 有 的 函数 import extend 
def foo(a:string) { foo("a") 4 extend 的 foo 被 调 上 
puts ("fooWn") bar("b") # extend 的 bar 被 调 | 
# 调用 被 重 写 的 函数 


























图 3-7 使 用 广义 函数 和 命名 空间 进行 类 扩展 
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m 


名 称 冲 突 


使 用 import 语句 可 以 向 某 个 命名 空间 导入 其 他 命名 空间 的 功能 ,但 是 当 从 多 个 命名 空间 进行 
import 时 ， 如 果 各 个 命名 空间 有 同名 的 值 ， 就 会 发 生 名 称 冲 突 。 一 旦 发 生 冲 突 ， 就 无 法 判断 该 使 
用 哪个 值 ， 由 此 便 会 产生 矛盾 。 
化 解 这 个 矛盾 的 办 法 有 几 种 ， 其 中 最 简单 的 办 法 是 报错 。 也 就 是 说 ， 冲 突 的 发 生意 味 着 功能 
面 重复 较 多 ， 比 较 危 险 ， 本 来 就 不 应 该 组 合 使 
男 一 种 办 法 就 是 在 import 时 通过 重 命名 的 方式 避免 冲突 。 这 种 做 法 确实 容易 理解 ， 但 同时 也 
需要 考虑 很 多 细节 ， 比 如 当 原来 的 命名 空间 调用 修改 了 名 称 的 函数 时 该 如 何 处 理 等 ， 实 现 起 来 比较 
复杂 。 
另外 还 有 当 发 生 冲 突 时 显 式 指定 命名 空间 进行 调用 的 办 法 。 这 种 做 法 也 许 不 会 像 重 命名 那样 难 
实现 ， 但 也 绝对 说 不 上 简单 。 
到 底 该 如 何 处 理 ， 我 也 苦恼 了 很 入。 目前 还 是 把 简单 和 易于 理解 放 在 第 一 位 ， 所 以 采用 了 冲突 
时 报错 的 方式 。 之 所 以 做 出 这 样 的 决定 ， 是 因为 从 Ruby 的 经 验 来 看 ， 从 多 个 命名 空间 (在 Ruby 
中 是 模块 ) 继承 的 名 称 发 生 冲 突 并 且 需 要 解决 这 个 冲突 的 情况 不 是 很 多 。 但 这 并 不 等 于 今后 不 会 采 
取 报 错 以 外 的 方式 来 解决 名 称 冲突 的 问题 ， 我 就 等 需要 解决 时 再 考虑 吧 ! 
























































uu 





o 



































Streem 的 对 象 








提起 面向 对 象 编程 ， 就 会 想到 定义 类 、 创 建 对 象 、 调 用 对 象 的 方法 等 。 

方法 调用 已 经 通过 广义 函数 实现 了 ,那么 类 和 对 象 的 相关 内 容 该 如 何 实现 呢 ? 前 面 也 说 过 ， 我 
不 想 引 入 多 个 相似 的 数据 结构 ， 所 以 我 想 尽 力 避 免 引 入 新 的 “对 象 ”类 型 。 

这 里 我 们 参考 一 下 其 他 语言 。Lua 语言 用 表 (table) 这 种 数据 结构 替代 对 象 。Perl 则 是 把 散 列 
当成 对 象 使 用 。JavaScript 中 虽然 有 对 象 这 一 数据 类 型 ,但 本 质 上 不 过 是 散 列 表 而 已 。 

这 就 说 明 我 们 把 现 有 的 数据 结构 稍微 包装 一 下 就 可 以 表示 对 象 (或 者 是 相当 于 对 象 的 结构 ) 
To Streem 里 有 数组 ， 数 组 拥有 一 般 语言 中 的 散 列 表 的 功能 ， 应 该 可 以 作为 对 象 进行 处 理 。 

Lua 为 了 把 表 当 成 对 象 处 理 而 设置 了 元 表 (metatable )。 元 表 是 保存 对 象 的 各 种 操作 的 表 ， 可 
说 起 到 了 类 的 作用 。 

Perl 提供 了 bless 函数 来 构造 对 象 ， 通 过 bless 将 标量 类 型 的 数据 与 包 关 联 后 ， 这 个 数据 就 可 以 
作为 对 象 使 用 。 也 就 是 说 ， 对 该 对 象 的 操作 均 由 包 中 的 函数 负责 执行 。 

我 为 Streem 该 采用 哪 种 形式 绞 尽 脑汁 ， 昔 恼 了 很 入 ， 最 后 从 Perl 中 得 到 启示 ， 决 定 把 数组 当 
成 对 象 使 用 ， 也 就 是 下 面 这 种 形式 。 




































































所 二 


yl 












































new < 名称 > [ 值 ...] 
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new Foo [1,2,3] 








使 用 这 种 形式 调用 之 后 ， 会 得 到 一 个 数组 ， 这 个 数组 把 < 


名 称 > 代表 的 命名 空间 当 作 类 进行 关联 。 


所 以 上 面 这 行 代 码 的 意思 是 把 命名 空间 Foo 关联 到 拥有 3 个 元 素 的 数组 并 返回 。 通 过 对 把 数 

















组 当 作 第 1 个 参数 的 函数 调用 进行 特殊 处 理 ， 就 可 以 实现 面 
我 想 把 命名 空间 当成 类 来 使 用 ， 以 实现 面向 对 象 功能 。 
用 的 处 理 。 扩 展 后 的 函数 调用 的 处 理 如 图 3-8 所 示 。 当 函数 的 第 1 个 参数 是 用 new 创建 的 数组 时 ， 












































该 命名 空间 的 函数 就 会 被 调用 。 





向 对 象 功能 。 
要 想 实 现 这 个 目标 ， 就 需要 扩展 函数 调 

















这 样 就 创建 好 了 一 个 使 用 了 广义 函数 和 命名 空间 的 比较 简单 的 面向 对 象 系统 。 














第 1 个 参数 是 数组 ， 
并 指定 了 命名 空间 




















前 命名 空间 中 有 该 
名 称 的 函数 








参数 相 匹配 错误 


图 3-8 ”函数 调用 流程 


“参数 相 匹 配 ”是 指 参数 的 数量 和 类 型 与 函数 定义 相符 





方法 调用 链 








不 过 函数 风格 并 不 总 是 合适 的 。 连 续 调用 多 个 函数 时 ， 函 数 调用 的 顺序 和 在 程序 中 出 现 的 顺序 


有 时 正好 相反 。 








比如 根据 条 件 〈 数 是 偶数 ) 筛选 数组 元 素 ， 对 其 排序 并 去 掉 重 复元 素 ， 这 一 处 理 如 果 用 函数 调 
用 的 风格 来 写 ， 就 如 图 3-9a 所 示 。 想 要 实施 的 处 理 的 顺序 ( 筛选 一 排序 一 去 重 ) 与 函数 出 现 的 顺序 








正好 相反 。 




















如 果 采 用 Ruby 的 方法 调用 风格 编写 
这 个 处 理 ， 则 如 图 3-9b 所 示 。 方 法 出 现 
的 顺序 与 实际 的 顺序 一 致 ， 非 常 易于 理 
解 ， 而 且 这 也 与 自然 语言 中 “筛选 、 排 序 、 
去 重 ” 这 一 连续 动作 的 表达 方式 一 致 。 

其 他 语言 大 多 也 采用 了 类 似 的 写 
法 ， 有 几 种 语言 提供 了 连续 进行 函数 调 
用 的 写法 ， 比 如 Elixir 的 “| >” 写 法 。 
图 3-10b 是 这 种 写法 的 示例 。 

采用 这 种 写法 编写 的 程序 就 像 是 用 
方法 调用 风格 编写 的 一 样 。 因 为 这 种 写 
法 非常 方便 ， 所 以 Streem 中 也 决定 引入 。 
Streem PH "." RET "sS", ix FE— 
来 ， 写 出 来 的 代码 看 上 去 就 像 普通 的 面向 
对 象 语言 的 代码 一 样 ( 图 3-10c )。 




































































Lisp-1 和 Lisp-2 


TE RT APRH PARCI ri HAS Lisp 中 





Lisp-1 是 Schema 这 个 Lisp 方言 中 使 用 的 一 种 方式 ， 函 数 的 命名 空间 与 变量 的 命名 空间 没有 
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(a) 函数 风格 

unig(sort(filter(ary, {x -> x % 2 == 0)))) 
(b) 方法 风格 

Grew tl 2 8 2 == ©0) ose Vale 


3-9 ”函数 风格 与 方法 风格 


(a) 函数 风格 

uniq(sort(filter(ary, (x -» x $ 2 -- 0)))) 
(BS 写法 

ary $ filter{x-> x $ 2 == 0} $ sort $ uniq 

















(c) .写法 ( Streem 采 用 的 写法 ) 
ary.filter(x-» x $ 2 == O0j.sort.uniq 





图 3-10 ”函数 风格 与 连续 进行 函数 调用 的 写法 


， 国 数 的 处 理 有 两 种 方式 ， 分 别 被 称 为 Lisp-1 和 Lisp-2。 


[X 





别 ， 命 名 空间 只 有 一 个 (所 以 叫 Lisp-1). Æ Lisp-1 中 ， 以 下 代码 表示 把 "hello" 当成 参数 传 给 





print 变量 中 保存 的 函数 并 执行 。print 





(print "hello") 





而 Lisp-2 是 CommonLisp 这 个 Lisp 方言 











是 对 函数 的 引 





uu 





o 

















使 用 的 一 种 方式 ， 函 数 的 命名 空间 与 变量 的 命名 空 


间 分 离 ， 所 以 会 有 两 个 (以 上 ) 的 命名 空间 。 在 Lisp-2 中 ， 以 下 代码 表示 把 "hello" 当成 参数 传 


给 print 函数 并 执行 。 





(print "hello") 





从 表面 上 看 代码 与 Lisp-1 相同 ， 但 是 进行 print 处 理 的 函数 即使 引 
































出 ， 所 以 需要 使 用 特殊 的 形式 。CommonLisp 使 用 了 下 面 这 样 的 写法 。 


(function print) 


lprint 变量 也 无 法 取 
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或 者 使 用 下 面 这 种 省 略 的 形式 。 











EENE 


大 家 可 能 觉得 








是 容易 把 函数 作为 值 取出 来 ， 而 且 函 数 式 编程 的 实现 也 比较 简单 。 





Lisp-1 和 Lisp-2 的 区 别 微不足道 ， 但 其 实 它 们 都 有 各 自 的 优 缺 点 。Lisp-1l 的 优点 


TE Lisp-1 中 ， 如 下 面 这 行 代码 所 示 ， 从 返回 函数 的 函数 拿 到 返回 值 ， 向 它 传递 参数 并 进行 调用 








的 处 理 很 简单 ， 





因此 使 用 Lisp-1 





((func args) arg) 











Lisp-l 的 缺点 是 调用 函数 时 必定 伴 
随 着 对 函数 的 引用 ， 所 以 很 难 进行 优化 。 
Lisp-2 则 正好 相反 。 

除了 Lisp， 其 他 语言 也 可 以 采用 这 种 
做 法 。 实 际 上 JavaScript 和 Python 就 采用 
了 Lisp-l 的 方式 ，Ruby 和 Smalltalk 则 采 
用 了 Lisp-2 的 方式 。 采 用 Lisp-2 的 方式 是 
为 了 优化 方法 调用 ,但 相应 地 把 方法 作为 
对 象 取 出 时 会 比较 麻烦 ( 图 3-11 )。 

需要 注意 的 是 ， 采 用 了 Lisp-2 方式 的 
Ruby 在 取出 方法 时 要 使 用 method 方法， 
在 调用 取出 的 方法 对 象 时 要 使 用 call 方法 。 

只 看 图 3-11 的 代码 可 

















人 Eb 八重 
能 会 觉得 











也 易于 创建 面向 对 象 系统 。 但 是 Lisp-2 就 做 不 到 这 一 点 。 













































































# Python (Lisp-1) 

obj.foo(1) # 方法 调 

f - obj.foo # 方法 取出 

£ (1) # 方法 的 间接 调用 

# Ruby (Lisp-2) 

obj .foo(1) # 方法 调 

obj . foo # 方法 调用 ( 无 参数 ) 

f = obj.method(:foo) # 方法 取出 

FEALL) # 方法 的 间接 调用 
图 3-11 Python 311 Ruby 的 方法 取出 

表 3-1 Streem 的 函数 调用 


Python 的 Lisp-1 









































































































































方式 更 加 简洁 ， 但 Ruby 采用 的 方式 在 方法 调用 的 优 = 
y . . e . func 函数 func 的 引用 
化 上 有 很 大 空间 ， 还 实现 了 方法 缓存， 而 且 还 可 以 用 于 = m 
unc () 函数 func 的 调用 
类 似 于 没有 参数 的 属性 引用 的 方式 进行 方法 调用 。 ENS Ei o 的 调用 (b(a) ) 
那么 Streem 该 采用 哪 种 方式 呢 ? 我 打算 采用 ab 函数 b 的 调用 (b(a) ) 
Lisp-1 和 Lisp-2 的 中 间 方 案 , BI Lisp-1.5”。 也 就 是 说 ， &func 5 func 含义 相同 
在 直接 指定 函数 名 时 可 以 获取 函数 的 引用 ， 在 使 用 了 &tenc(1) | 函数 func 的 偏 应 用 函数 
“.” 的 方法 调用 链 中 ， 可 以 将 其 看 作 没有 参数 的 方法 “一己 函数 的 含 应 用 函数 |(&bl(a) ] 
调用 ( 表 3-1) &a.b(c) (a-b) (€), Bl ba, e) 
另外 ， 使 用 “g&” 符 号 可 以 实现 偏 应 用 函数 的 效果 。 偏 应 用 函数 是 指 预先 指定 了 一 部 分 参数 值 








(D Lisp-L5 也 是 Lisp 早期 的 一 个 语言 处 理 器 的 名 字 ， 所 以 这 里 称 为 Lisp-1.5 不 是 很 妥当 。 
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的 函数 。 为 了 便于 理解 这 个 概念 ， 我 们 来 看 一 个 实际 的 例子 。 
假设 有 一 个 对 两 个 数值 进行 加 法 计算 的 plus 函数 。 


jpllue(3L.2) s = 3 





上 面 的 代码 表示 把 1 和 2 相 加 ， 返 回 3。 而 运行 下 面 这 行 代码 ， 赋 值 给 plus5 的 就 会 是 “将 
plus 的 第 一 个 参数 固定 为 5 的 函数 ”。 





plus5 = &plus (5) 














向 Pluss5 传递 参数 ， 返 回 的 就 是 该 数值 与 5 相 加 的 结果 。 





joues (ui) s ee 6 
plus5(9) 48 -» 14 


这 里 只 指定 了 一 个 参数 ， 当 然 我 们 也 可 以 指定 两 个 以 上 的 参数 。 


plus12 = &plus(1,2) 

plus12() 4 => 3 

plus12(3) # => ERROR! 参数 过 多 
jode = elus (2.3) 

* ERRRO! 参数 过 多 











这 种 形式 对 点 C.) 的 写法 也 是 有 效 的 。f = a.b Ef = &b(a) 的 省 略 写 法 ， 调 用 f(c) 
时 a.b(c) ， 也 就 是 b (a,c) KASY o 





小 结 














本 节 介 绍 了 Streem 的 面向 对 象 功 能 的 设计 。Streem 从 现 有 的 语言 中 借鉴 了 很 多 东西 ， 比 如 
CommonLisp 的 广义 函数 和 Haskell 的 “$” 写 法 等 ， 并 巧妙 地 对 它们 进行 了 组 合 ， 从 而 设计 出 了 风 
格 独特 的 面向 对 象 功能 。 男 外 ， 这 部 分 内 容 也 可 以 帮助 读者 认识 到 如 何 去 进行 语言 设计 。 

本 节 的 部 分 源 代码 在 https://github.com/matz/streem 上 ， 这 次 的 标签 是 201512。 不 过 由 于 实现 
的 难度 较 大 ， 所 以 使 用 “&g” 符 号 实现 偏 应 用 函数 的 功能 等 部 分 还 没有 着 手 开 发 ， 其 余部 分 也 还 没 
有 完成 ， 仅 供 参 考 。 
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时 光 机 专栏 
应 该 有 更 好 的 办 法 

















节 是 2015 年 12 月 刊 中 刊登 的 内 容 。 在 3-1 节 介 绍 的 面向 对 象 的 概念 和 历史 的 基础 上 ， 针 
对 受到 函数 式 语 言 影响 的 Streem， 本 节 探 讨 了 如 何 设计 面向 对 象 功能 。 在 面向 对 象 编程 成 为 
常识 的 这 个 年 代 ， 最 适合 Streem 这 种 语言 的 面向 对 象 功 能 的 设计 方式 却 还 没有 一 个 正确 答案 。 
这 次 尝试 设计 了 使 用 广义 函数 和 命名 空间 实现 的 面向 对 象 功能 ， 并 开发 出 了 能 用 的 版 本 ， 
这 一 点 很 不 错 ， 但 还 是 有 一 些 不 尽 如 人 意 的 地 方 。 而 且 使 用 “&'” SPON H A 
发 完成 。 
我 认为 这 次 的 设计 比较 好 地 融合 了 函数 式 编 程 和 面向 对 象 编程 ， 但 还 是 没 能 像 CLOS 的 广 
义 函 数 那样 通过 命名 空间 控制 实现 与 Refinement 同样 的 功能 ， 所 以 还 不 能 说 完美 地 进行 了 融 
合 。 我 心中 还 留 有 遗憾 ， 希 望 将 来 能 够 做 出 更 好 的 设计 。 































































































































































































-3 再 看 Streem 的 语 ; 


经 过 一 段 时 间 之 后 再 去 看 当初 经 过 多 方 考虑 设计 的 Streem 语 法 ， 就 会 感到 不 满 。 趁 现 
在 还 没有 什么 人 使 用 Streem， 正 是 改善 语法 的 最 好 时 机 ， 所 以 我 打算 再 来 探讨 一 下 
Streem 的 语法 。 










































































写 书 时 需要 编写 示例 代码 ， 所 以 我 可 能 是 世界 上 第 一 个 用 Streem 写 程序 的 人 。 我 想 至 少 现在 
除了 我 之 外 应 该 没 人 用 Streem 写 程序 。 之 所 以 这 么 说 ， 是 因为 Streem 还 远 远 未 达到 实用 的 程度 。 




















我 在 用 Streem 写 程序 时 发 现 了 一 些 不 太 中 意 的 地 方 。 在 语言 设计 的 过 程 中 ， 发 现 当 初 设计 时 
没 考虑 到 的 问题 是 常 有 的 事 。 








shift/reduce conflict 


首先 是 语法 含混 的 问题 。Streem 的 语法 是 根据 yacc 工具 的 规则 (yace 定义 文件 ) 编写 的 ， 并 
使 用 GNU 的 yacc 兼容 工具 bison 编译 为 C 代码 。 
把 编写 本 节 之 前 的 Streem 语法 定义 交 给 bison 去 分 析 ， 会 得 到 下 面 的 警告 。 












































8 shift/reduce conflicts 





这 个 警告 的 意思 是 “有 8 个 语法 含混 的 规则 ”。conf1lict (冲突 ) 是 指 在 语法 分 析 的 某 个 语 
境 中 ， 当 某 个 记号 来 临时 ， 存 在 多 个 应 该 迁移 的 状态 。 这 种 不 知道 语法 规则 的 解析 是 该 就 此 结束 
(reduce )， 还 是 继续 进行 ( shift ) 的 情况 就 称 为 shift/reduce conflict, 
就 算 当 应 该 迁移 的 状态 有 多 个 时 规则 解析 就 此 结束 ， 也 还 是 会 出 现下 面 这 种 错误 。 
































reduce/reduce conflict 


比如 下 面 这 个 表达 式 。 


expr + expr * expr 


在 这 种 情况 下 ， 并 不 能 确定 这 个 表达 式 应 该 解释 为 





(expr + expr) * expr 
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是 解释 为 


si 


expr + (expr * expr) 


所 以 yace 才 会 发 出 不 知道 该 选 哪个 的 shift/reduce conflict 和 警告。 但 实际 上 ， 二 元 算术 运 
算 符 是 左 结合 的 。 





Lerla 
(a al 


另外 ,运算 符 有 优先 级 ， 乘 法 运算 符 “*” 比 加 法 运算 符 “+” 的 优先 级 高 ， 所 以 规则 其 实 是 很 
明确 的 。 因 此 只 要 在 yacc 定义 文件 中 告诉 它 规则 ， 这 个 conflict 就 会 消失 。 

bison 很 智能 ， 即 使 语法 有 些 含混 ， 也 会 帮 有 我 们 生成 可 以 适当 进行 解析 的 语法 分 析 器 。 可 如 果 
语法 有 含混 的 地 方 ， 看 的 人 也 可 能 会 被 搞 糊 涂 。 

下 面 我 们 就 去 调查 一 下 这 次 的 conf1ict 是 在 哪里 发 生 的 ， 是 哪 处 语法 不 够 明确 。 在 执行 yacc 
命令 时 添加 -v 选项 ， 就 会 生成 一 个 名 为 y.output 的 日 志文 件 ， 用 来 记录 语法 是 如 何 被 解析 的 。 
























































$ LANG-C yacc -v parse.y 











加 该 符号 代表 回 车 








这 里 的 yacc 虽然 是 bison 3 3-2 bison 模式 与 yacc 兼容 模式 


的 别名 ， 但 若 以 yacc 这 个 名 EN 
































字 启 动 bison，bison 就 会 以 ”语法 分 析 器 的 源 代码 parse.tab.c y.tab.c 
“yace 兼容 模式 ”运行 。 莉 出 的 日 志文 件 parse.output y.output 





X 3-2 列举 了 bison 模式 下 语法 分 析 器 的 源 代 码 和 输出 文件 的 名 称 。 如 果 一 个 程序 只 处 理 一 个 语法 
分 析 器 ， 我 觉得 还 是 yacc 模式 比较 方便 ， 所 以 就 使 用 了 yace 模式 。 

为 了 防止 输出 的 日 志 中 出 现 英文 以 外 的 本 地 化 字符 ,命令 中 指定 了 LANG=C。 昌 然 查 看 日 志 时 
中 文 更 容易 理解 ， 但 搜索 日 志 内 容 时 ,“State” 要 























比 “状态 ” 更 容易 输入 ， 所 以 纯 英 文 的 日 志 反 倒 State 0 conflicts: 2 shift/reduce 
State 11 conflicts: 2 shift/reduce 

然 个 人 的 感想 。 
更 加 方便 。 当 然 这 只 是 我 个 人 的 必 State 14 conflicts: 2 shift/reduce 
查看 生成 的 youtput 文 件 Mee ds 文件 State 51 conflicts: 2 shift/reduce 














前 面 显 示 了 如 图 3-12 所 示 的 警告 。 这 时 如 果 查 看 

















图 3-12  y.output 的 警告 
(D 源 代码 文件 是 parse.y 的 情况 。 ERTE i 
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3-3 HH Streem 的 语法 


State 11， 就 会 看 到 如 图 3-13 所 示 的 内 容 。 这 里 
介绍 一 个 小 技巧 ， 在 查询 状态 时 , 使 用 ^state State 11 

这 样 的 正则 表达 式 会 x ` 
x 这 标的 正 doque Mic qe " aces ceci o- Gpr Cerme 
通过 图 3-13 我 们 可 以 得 知 是 "Nn? 或 者 "E 6 eel liscs ceel list > Crims 
导致 了 conf1ict。 实 际 上 程序 的 结构 是 首先 进 decl 
行 声 明 ， 然 后 执行 语句 ， 但 由 于 这 两 部 分 的 分 隔 









































符 有 “\n” 和 “;”， 所 以 就 出 现 了 不 知道 该 用 哪 oe 
E E: . x Drs nd EO en 
个 规则 去 解析 的 情况 。 当 然 ， 这 只 不 过 是 分 隔 符 
而 已 ， 用 哪个 规则 解析 都 不 会 有 太 大 的 区 别 ， 不 m [reduce using rule 
会 产生 什么 实质 性 的 危害 。 但 是 放任 不 管 总 感觉 。 106 (opt terms)] 
不 舒服 ， 所 以 我 还 是 决定 修改 一 下 规则 。 ee 
106 (opt terms)] 
P "S $default reduce using rule 
声明 和 执行 语句 106 (opt terms) 
当前 的 Streem 语法 和 以 前 的 C 语言 语法 一 样 ， opt terms go to state 50 
先进 行 声明 ， 青 执行 语句 ， 但 其 实 并 不 需要 这 么 terms go to state 51 
做 。 于 是 我 就 让 包括 下 列 定 义 在 内 的 声明 成 为 顶级 pues ca D 





语句 ， 使 它们 可 以 写 在 顶级 作用 域 的 任何 地 方 。 
图 3-13 有 conflict 的 state 


e 方法 定义 
e 命名 空间 定义 











这 就 意味 着 方法 定义 等 不 能 写 在 条 件 表达 式 和 方法 定义 之 内 ， 这 样 就 达到 目的 了 。 
为 新 引入 的 顶级 语句 制定 的 规则 (不 包含 动作 ) 如 图 3-14 所 示 。 








topstmts : topstmt 
| topstmts terms topstmt 


topstmt : keyword namespace identifier '{' topstmts 'j]' 
keyword class identifier '(' topstmts '}' 
keyword import identifier 


keyword method identifier '(' opt f args ')' '(' stmts ')' 
Ixeyoworcigmethociiidler eiie OP UM TU cra 
stmt 


图 3-14 ”顶级 语句 的 规则 
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定义 函数 的 def 语句 只 是 把 函数 对 象 赋值 给 变量 ， 
那里 。 





4 


不 是 顶级 语句 ， 所 以 要 把 它 放 到 普通 语句 


另外 ， 当 def 语句 和 method 语句 的 定义 部 分 只 有 一 个 表达 式 时 ,用 “= 表达 式 ” 的 形式 来 写 
即 可 。 我 本 想 把 “=” 也 省 略 掉 ， 但 总 是 发 生 不 明 原 因 的 冲突 ， 所 以 我 只 好 妥协 ， 子 以 保留 。 


删除 break 语句 








下 面 继续 整理 语法 。 当 前 语法 中 ， 中 断 函 数 运行 的 关键 字 有 break 和 skip 两 个 ， 两 者 作用 
相同 ， 所 以 删除 其 中 一 个 。break 最 初 是 中 断 C 语言 循环 的 关键 字 ， 而 Streem 里 没有 循环 ， 所 以 








删除 break 关键 字 。 








处 理 还 没有 被 运行 过 ， 所 以 删除 了 也 不 会 出 现任 何 问 题 。 

















从 词法 分 析 需 的 lex.1 和 语法 分 析 器 的 parse.y 中 删除 break 相关 的 部 分 即 可 。break 的 相关 














我 们 顺便 也 让 skip 语句 运行 起 来 。 当 skip 被 调用 时 ， 让 程序 抛 出 异常 ， 结 束 运行 。 





fat i iE] 


趁 此 机 会 ,我们 把 对 语法 不 满意 的 地 方 统一 修改 
一 下 4 
其 中 一 个 不 满意 的 地 方 就 是 if£ 语句 。if 语句 
是 Streem 中 为 数 不 多 的 控制 结构 之 一 ， 可 是 当 判 断 
条 件 很 多 时 ， 程 序 看 起 来 就 会 很 不 美观 。 比 如 著名 的 
FizzBuzz 程序 ， 用 当前 语法 编写 就 如 图 3-15 所 示 。 






































seq(100) | map{x -> 


aut sx e die ee 0 (EiszBuzs.)} 
else di z è 3 == 0 (“rizza”) 
elese dit xx € 5 == 0 (amz/) 
else {x} 

) | stdout 


让 我 不 满意 的 地 方 有 两 点 : 一 点 是 必须 使 用 大 括号 3-15 用 当前 语法 编写 的 FizzBuzz 程序 








“{}”， 另 一 点 是 没有 用 小 括号 围 住 条 件 表达 式 。 

















之 前 的 语法 要 求 禁 止 省 略 大 括号 是 有 原因 的 。 在 控 
就 发 生 过 “dangling else” 的 问题 。 
这 个 问题 是 指 ， 对 于 下 面 这 段 代 码 ， 


TER Cero edel) 
3t (cond2) 
statement2 
ElSe 
statement3 





不 知道 是 按照 下 面 这 种 方式 解释 


判 结构 中 使 用 大 括号 的 语 


言 ， 比 如 C 语言 ， 
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if (cond1) ( 
4f (conds) 
Statement2 
uis 


statement3 


} 
还 是 按照 下 面 这 种 方式 解释 ， 从 而 产生 了 冲突 。 


if (cond1) [ 
if (cona2) 
statement2 
) 
else 
statement3 





即使 产生 冲突 ，yacc 也 会 以 shift ^c, TERRE “else 属于 最 近 的 那个 i£” 的 规则 去 解释 ， 
但 是 程序 依旧 含混 不 清 。 

为 了 避免 这 个 问题 出 现 ，Ruby 引入 了 “梳子 型 结构 ”"。 也 就 是 说 ， 只 有 一 条 语句 时 和 有 和 多 条 语 
句 时 的 代码 风格 不 同 本 来 就 是 一 个 问题 ， 所 以 不 使 用 大 括号 ， 规 定 if£ 语句 到 end 结束 。 这 样 一 
K, AA if 语句 就 会 变 成 了 下 面 这 段 代码 的 形式 。if else 等 就 像 梳 子 齿 一 样 凸 出 来 ， 所 以 称 
为 梳子 型 结构 。 


























meta cron eii 
statement1 
elsif cond2 
statement2 
else 
statement3 
end 








而 Perl 则 通过 禁止 省 略 大 括号 的 方式 解决 了 这 个 问题 。 之 前 Streem 也 参考 了 这 个 方式 ， 规 定 
不 人 允许 省 略 大 括号 。 

但 是 Streem 中 常用 的 函数 式 编程 经 常会 把 if 语句 当 作 表达 式 来 返回 值 。 在 这 种 情况 下 ， 作 为 
表达 式 还 是 不 使 用 大 括号 写 起 来 更 加 自然 。 

所 以 我 决定 将 if 语句 恢复 为 C 语言 的 风格 ， 将 语法 修改 为 单条 语句 〈 或 单个 表达 式 ) 时 不 使 
用 大 括号 ， 包 含 多 条 语句 时 用 大 括号 围 起 来 。 

与 此 同时 ,我 也 用 小 插 号 把 条 件 表达 式 围 起 来 了 。 之 前 的 语法 参考 了 Go 的 语法 ， 没 有 使 用 小 
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括号 围 住 条 件 表达 式 , 但 在 Streem 中 ， 跟 在 函数 调用 之 后 的 可 能 是 代码 块 ， 如 果 不 加 小 括号 ， 语 
法 就 会 变 得 非常 复杂 ( 为 了 在 条 件 表达 式 中 让 代码 块 不 跟 在 方法 调用 之 后 ,我 编写 了 两 种 独立 的 规 
则 )。 当 时 化 费 苦心 地 编写 了 规则 ， 但 冷静 之 后 再 看 就 会 觉得 不 异 让 语法 变 得 复杂 而 编写 出 来 的 规 
则 并 没有 取得 很 好 的 效果 ， 所 以 我 想 借 此 机 会 加 以 改善 。 

使 用 新 语法 编写 的 FizzBuzz 程序 如 图 3-16 所 
示 。 虽 然 和 图 3-15 的 代码 相差 不 大 ,但 是 看 上 去 更 — 999100) | map{x-> 





















































T if (x v 15 == 0) "PizczBuzz" 
IMAR T else if (x $ 3 == 0) "Fizz" 
alsa ade dex € 5 ee 0) Wig 
还 有 一 些 含混 的 地 方 else x 
} | stdout 


这 次 的 修改 虽然 对 机 融 来 说 规则 明确 无 误 ， 但 
却 产 生 了 让 人 容易 弄 错 的 组 合 ， 比 如 下 面 这 行 1Ef ”图 3-16 使 用 新 语法 编写 的 FizzBuzz 程序 


语句 。 


if (cond) (print (x)] 














(print (x)] 








既 可 以 看 作用 大 括号 围 住 了 函数 调用 print (x), ， 也 可 以 看 作 一 个 定义 部 分 是 Print (x) 的 函数 
对 象 ， 也 就 是 省 略 了 下 面 这 段 代 码 的 参数 部 分 的 函数 对 象 。 

















(-»print (x)] 


在 这 种 情况 下 ，Streem 将 it 语句 的 主体 部 分 中 出 现 的 括号 解释 为 用 于 围 住 代码 语句 的 符号 。 

实际 上 这 个 实现 非常 麻烦 ， 如 果 按 照 普 通 方式 去 写 ， 语 法 分 析 器 也 会 跟 人 一 样 出 现 混乱 ， 从 而 
发 生 冲 突 。 于 是 ，Streem 在 实现 时 先 把 它 当成 函数 对 象 进行 语法 解析 ， 如 果 是 if 的 主体 部 分 ， 那 
就 把 它 当成 普通 的 大 括号 去 重新 构建 语法 树 。 


















































增加 右 侧 赋值 


不 满意 的 地 方 还 有 很 多 。 

在 管道 中 赋值 时 让 我 感到 特别 不 严 。 具 体 来 说 ，Streem 的 管道 由 “| ”连接 ,按照 从 左 向 右 的 
方向 进行 处 理 。 如 果 碰 到 分 支 处 理 等 情况 ， 就 需要 在 管道 中 赋值 ， 这 时 就 要 提前 创建 一 个 从 左 到 右 
的 管道 ， 在 需要 赋值 的 时 候 返回 到 左边 进行 赋值 ， 这 正好 与 视线 和 思维 的 方向 相反 。 









































我 们 通过 一 个 实际 的 例子 来 思考 这 个 问题 。 图 3-17 


input = fread("result.csv") |map{x->number (x)} 








avs = input | average() # 平均 值 (a) 
sts = input | stdev() # 标准 差 (b) 
zip(avs, sts) | each{x-> 

avg = x(0); std = x(1) 


fread("result.csv") | map(x-»number (x) } | 
ss (score-avg)*10 / std + 50 
print("ZE: ", Hae ss) 

J 


) 


Score, 


图 3-17 偏差 值 的 计算 
这 里 需要 注意 的 是 
(的 流 ) WIRA T avs 变 





图 3-17 的 (a) 部 分 。input 经 


二 网 FH 
A 





里 o 





\ 维 顺序 明明 是 input, 
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是 一 个 计算 偏差 值 ”的 程序 (5-5 节 会 介绍 ) 





# 


(e 


each {score-> 


ibaverage () mU EE, fs rim 


REL 
变量 





avs， 但 是 体现 到 程序 


average(), 





上 的 顺序 却 是 avs、input 、average O . (b) 部 分 也 是 如 此 。 这 种 思维 顺序 和 编写 顺序 的 不 一 致 


会 给 人 一 种 难以 描述 的 负担 ， 导 致 效率 低下 。 
所 以 我 决定 使 用 
码 ， 思 维 方向 与 程序 体现 出 来 的 顺序 一 致 了 。 














input | average() => avs 





编程 
于 小 题 大 做 ， 但 正 是 这 种 微不足道 的 改进 的 不 断 累 积 ， 





修改 函数 调用 








最 后 要 修改 的 部 分 是 函数 调用 。 


“=>” 符 号 从 左 向 右 赋值 。 这 样 一 











3-17 中 的 (a) 就 会 变 成 下 面 这 样 的 代 





语言 一 般 都 是 从 右 向 左 赋值 ， 也 许 有 人 会 觉得 执着 于 思维 方向 与 出 现 顺序 不 一 致 的 问题 过 


才 带 来 了 语言 易 用 性 的 提升 。 





前 面 也 提 到 过 ，Streem 在 设计 上 会 尽 可 能 地 与 Ruby 不 同 。 


另外 ， 与 一 开始 就 作为 面向 对 象 语言 设计 的 Ruby 
Ruby 以 方法 调用 为 





函数 调用 时 第 一 个 参数 所 属 的 命名 空间 来 决定 要 调用 的 











(D 











“偏差 值 ”是 指 相对 平均 值 的 偏差 数值 ， 在 
佳 差 +50。 译 者 注 








本 党 

















平均 成 绩 ) x 10/ 标 # 

















于 考察 学 4 








不 同 ，Streem 更 加 重视 函数 式 编程 。 





因此 ， 








Pò, Ti Streem 则 把 函数 调用 置 于 中 心 位 置 。 
话 虽 如 此 ， 但 我 还 是 想 提高 面向 对 象 的 易 用 性 ， 特 


别 是 想 实现 多 态 这 项 功能 ， 
国 数 的 结构 。 


所 以 引入 了 根据 








的 智能 和 学 力 。 计 算 公 式 为 : 偏差 值 = (个 人 成 绩 - 
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虽然 每 个 设计 都 有 它 的 理由 ,但 是 由 此 导致 函数 的 定位 发 生 了 偏 移 也 是 不 争 的 事实 。 
举例 来 说 ， 如 果 是 普通 的 函数 式 语言 ， 下 面 这 行 代码 的 意思 就 是 “用 参数 x 调用 名 为 number 
的 函数 ( 对 象 Vo 















































number (x) 





而 在 Streem 中 ， 同 样 的 一 行 代码 却 表示 “参数 x 含有 某 个 命名 空间 的 信息 ， 如 果 这 个 命名 空 
间 的 作用 域 中 存在 名 为 number 的 函数 ， 则 调用 该 函数 ， 否 则 将 当前 作用 域 中 的 名 为 number 的 对 
象 当 成 函数 来 调 














uu 





o 


number (x) 





虽然 函数 调用 的 规则 复杂 了 一 些 , 但 是 熟悉 之 后 其 实 并 不 难 。 麻 烦 的 是 在 这 种 情况 下 ， 被 调用 
的 函数 不 能 按照 统一 的 名 称 进 行 处 理 。 

请 看 图 3-17 的 (e) 部 分 。 这 行 代 码 使 用 map 把 流 中 的 元 素 转换 为 数值 。map 会 把 函数 当成 参 
数 处 理 ， 所 以 这 里 本 可 以 用 下 面 这 行 代码 来 调用 。 
































map (number) 


可 是 现在 的 Streem 在 进行 number (x) KAH (看 上 去 像 是 ) 能 够 转换 数据 的 是 在 各 个 
命名 空间 定义 的 函数 。 通 过 number DAT 一 定 能 够 得 到 值 ( 函数 ) 的 处 理 。 因 此 无 法 像 上 
面 那 样 通过 number 这 个 名 称 取出 “把 各 种 数据 转换 为 数值 的 函数 ”， 人 j 下 面 这 种 方式 进 
行 调用 了 。 
























































map (number) 








这 样 就 不 太 好 了 ， 于 是 我 决定 引入 在 某 个 语 境 下 与 函数 调用 起 相同 作用 的 对 象 。 由 于 分 散在 命 
名 空间 里 的 函数 可 以 通过 统一 的 名 称 人 处 理 ， 所 以 我 把 这 种 对 象 称 为 “广义 函数 对 象 ”。 
在 标识 符 前 加 上 “&” 可 以 取出 广义 函数 对 象 ， 因 此 下 面 这 种 写法 











map (&number) 


与 前 面 的 


map{x->number (x) } 


作用 相同 。 


3-3 BA Streem 的 语法 


函数 的 直接 调用 


另外 ， 为 了 应 对 函数 名 和 变量 名 碰巧 产生 冲突 的 情况 ， 我 采用 了 直接 调用 











用 这 个 方法 就 可 以 无 视 多 态 ， 也 不 需要 考虑 第 一 个 参数 的 命名 空间 。 





Ee el) 











像 这 样 在 参数 的 括号 之 前 放 一 个 “.”， 就 能 保证 函数 对 象 被 调用 。 与 必须 指 




















函数 对 象 的 方法 。 使 


定 标 识 符 的 函 


用 不 同 ， 在 这 种 形式 中 ，func 部 分 可 以 写成 返回 可 以 调用 的 对 象 的 任意 表达 式 。 





Lisp-1 和 Lisp-2 
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数 调 


Lisp 社区 在 很 早 以 前 就 开始 了 这 种 关于 函数 调用 形式 的 讨论 。 在 3-2 节 也 介绍 过 ，Lisp KEE 


可 以 分 为 Lisp-1 和 Lisp-2 两 种 形式 。 


Lisp-l 是 函数 的 命名 空间 和 变量 的 命名 空间 不 分 离 的 形式 。 由 于 命名 空间 只 有 一 个 ， 所 以 叫 Lisp-1。 
采用 Lisp-1 方式 的 语言 有 Scheme, JavaScript 和 Python。 这 一 设计 方针 也 适用 于 Lisp 之 外 的 





语言 ， 但 直到 现在 大 家 还 是 用 Lisp 的 名 字 去 称呼 它 ， 这 让 人 感觉 有 点 奇怪 。 





在 采用 Lisp-1 的 语言 中 ， 以 下 函数 调用 表示 先 评估 print 表达 式 ， 然 后 把 参数 x 传 给 作为 评 




















估 结 果 的 函数 (或 者 可 以 调用 的 对 象 ) 并 进行 调用 。 


print (x) 











变量 的 引用 相当 于 函数 名 ， 所 以 可 以 放置 任何 表达 式 。 也 就 是 说 ， 





((complex expr) (args1)) (args2) 


会 进行 以 下 动作 。 











e 评估 complex expr 
e 把 argsl 作为 参数 传 给 作为 上 一 步 的 执行 结果 上 
e 把 args2 作为 参数 传 给 作为 上 一 步 的 执行 结果 的 



































函数 ， 并 调用 该 函数 
函数 ， 并 调用 该 函数 
































可 以 看 出 ， 通 过 很 简单 的 规则 也 可 以 实现 非常 复杂 的 处 理 。 











Lisp-l 结构 简单 ， 在 其 基础 上 还 可 以 组 建 很 多 其 他 的 结构 ， 非 常 方 便 ， 所 以 追求 简洁 的 Lisp 方 





言 Schema 也 采用 了 这 种 方式 。 




















在 Lisp-l 中 ， 函 数 对 象 的 取出 是 基础 操作 ， 所 以 Lisp-1 适用 于 频繁 处 理 函 











言 。 最 近 出 现 的 语言 就 经 常 使 用 这 一 形式 。 











数 的 函数 式 有 


i 程 语 
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Lisp-2 的 优 缺 点 


函数 的 命名 空间 和 变量 的 命名 空间 相互 分 离 的 方式 被 称 为 Lisp-2。 采 用 Lisp-2 的 语言 有 
CommonLisp、Ruby 和 Smalltalk 等 。 
在 采用 Lisp-2 的 语言 中 ， 以 下 函数 调用 表示 从 函数 表 中 搜索 名 为 print 的 函数 ， 然 后 把 参数 
x 传 给 该 函数 并 进行 调用 。 














PEIRE) 











即使 当前 作用 域 中 有 名 为 print 的 变量 ,但 由 于 变量 的 命名 空间 与 函数 的 命名 空间 相互 独立 ， 
所 以 也 是 毫 无 关系 的 。 

Lisp-2 的 “通过 名 称 调用 函数 ”的 理念 与 面向 对 象 的 “通过 消息 调用 功能 (方法 》 
常 相符 ， 这 就 可 以 明白 为 什么 原本 作为 面向 对 象 语言 设计 的 Smalltalk 和 Ruby 会 采用 Lisp-2 了 。 
数 的 搜索 被 完全 隐藏 在 语言 的 运行 时 中 ， 所 以 可 以 比较 简单 地 实现 方法 缓存 等 能 够 提升 函数 调 "i 
能 的 结构 ， 这 也 是 Lisp-2 的 一 个 优点 。 

Lisp-2 的 缺点 是 不 太 擅长 通过 统一 名 称 的 方式 处 理应 该 被 调用 的 函数 ， 因 此 在 进行 函数 式 编程 
时 会 稍微 麻烦 一 些 。 

同样 的 内 容 ， 如 果 用 Lisp-1 的 方式 来 写 ， 就 是 下 面 这 种 简单 的 形式 ， 







































































map (number) 



































但 是 如 果 用 Lisp-2 来 写 ， 就 得 写成 下 面 这 种 形式 。 


map ({x->number (x) )) 





不 过 ， 如 果 引 入 前 面 介绍 的 广义 函数 对 象 ， 就 可 以 简写 到 下 面 这 种 程度 。 











map (&number) 


因此 ， 我 们 可 以 认为 这 不 是 什么 大 的 缺点 。 


Streem 和 Lisp-2 





如 前 所 述 ， 最 初 在 设计 Streem 时 ， 考 虑 到 函数 式 编程 的 便利 性 ， 我 打算 采用 Lisp-1 的 方式 。 
但 由 于 我 非常 喜欢 面向 对 象 编程 ， 总 想 以 某 种 形式 引入 多 态 ， 所 以 在 经 过 一 番 思 考 之 后 引入 了 
Lisp-2 的 方式 。 




















3-3 再 看 Streem 的 语法 | 169 








在 这 次 改进 中 引入 的 广义 函数 使 Streem 能 够 在 保持 Lisp-2 方式 的 同时 采用 类 似 于 Lisp-1 的 方 
式 来 编写 代码 ， 我 们 也 许 应 该 称 这 种 方式 为 Lisp-1.5”。 








小 结 





本 节 重 新 审视 了 Streem 的 语法 ， 意 外 地 发 现 了 很 多 需要 修改 的 地 方 。 


现在 Streem 还 没有 用 户 使 用 ， 所 以 可 以 尽情 修改 。 要 是 像 Ruby 那样 拥有 几 万 名 用 
微不足道 的 修改 ， 一 旦 不 兼容 ， 也 会 成 为 大 问题 。 






































户 ， 即 使 是 





下 一 节 我 准备 扩展 Streem 的 语法 ， 探 讨 一 下 函数 式 语言 中 常见 的 模式 匹配 功能 。 





时 光 机 专栏 


























本 节 是 2016 年 8 月 刊 中 刊登 的 内 容 。 在 连载 即将 结束 时 ， 我 大 面积 修改 了 语法 ， 本 书 根 
据 最 终 的 语法 重新 编写 了 示例 代码 并 进行 了 替换 。 
所 以 本 节 介绍 的 改进 语法 的 相关 















































Ab cr 































































































为 容 只 能 算是 交代 了 修改 语法 的 背景 。2-4 节 也 有 相似 的 
介绍 。 我 们 可 以 看 出 随 着 连载 的 进行 ， 语 法 也 在 一 点 一 点 地 改善 。 

这 里 就 体现 出 了 连载 的 局 限 性 。 我 不 想 大 幅 修改 原来 在 杂志 上 连载 的 文章 ， 所 以 这 次 就 直接 
收录 在 书 
































PB 里 了 。 希望 本 节 内 容 可 以 让 大 家 明白 语言 设计 者 在 设计 和 改 3 
通过 本 节 我 还 感受 到 杂志 连载 的 另 
E 




















语法 时 是 如 何 考虑 的 。 
的 “Lisp-1 和 Lisp-2” 的 
E12 月 刊 和 2016 年 8 月 刊 中 都 写 到 了 这 
FE 多 ， 所 以 第 二 次 写 的 时 候 完全 没 注意 到 这 个 话题 重复 了 ， 而 且 当时 也 
时 根据 内 容重 新 编排 了 顺序 ， 这 时 才 发 











个 局 限 性 。3-2 节 和 3-3 d$ 
了 。 这 本 来 就 是 我 非常 喜欢 的 话题 ，2015 8 
个 内 容 。 由 于 间隔 了 半生 

































































根本 没有 想到 将 来 会 把 这 个 连载 整合 成 书 来 出 版 。 出 了 
现 内 容重 复 ] 
































， 也 算是 自 食 其 果 吧 ! 




















(D Lisp-1.5 是 Lisp 早期 的 一 个 语言 处 理 器 的 名 字 ， 这 里 只 是 一 句 玩笑 话 。 














-4 模式 匹配 


本 节 将 介绍 函数 式 语言 中 常见 的 一 个 功能 





模式 

















匹配 。 有 了 模式 匹配 ， 处 理 





Ht 





型 的 数据 结构 就 会 变 得 非常 容易 。 在 经 过 反复 试验 之 后 ， 我 终于 在 Streem 中 实现 了 这 





个 功 能 。 真 想 让 Ruby 也 实现 这 个 功 能 。 














提起 模式 匹配 ， 我 们 首先 想到 的 就 是 正则 表达 式 ， 隐 数 式 语言 中 的 模式 匹配 起 到 的 也 是 类 似 的 
作用 ， 即 检查 值 和 模式 是 否 匹 配 ， 以 及 从 匹配 的 值 中 取出 其 中 一 部 分 。 





Erlang 的 模式 匹配 











不 过 在 函数 式 语言 中 ， 匹 配 的 对 象 不 是 字符 串 ， 而 
是 数据 结构 。 我 们 看 一 下 具有 模式 匹配 功能 的 函数 式 语 
言 Erlang 的 例子 。 图 3-18 是 一 个 不 断 求 整数 之 和 的 斐 波 
那 契 数列 ”的 程序 。 

Erlang 中 使 用 case 语句 进行 模式 匹配 ( 其 实在 函数 
定义 中 也 可 以 进行 模式 匹配 。 这 部 分 内 容 还 请 大 家 自行 
查阅 Erlang 的 相关 资料 )。 

case 语句 把 N 代表 的 表达 式 与 模式 进行 匹配 ， 匹 配 




















成 功 后 执行 “- >” 之 后 的 代码 。 如 果 模 式 中 有 变量 ， 还 
会 对 这 个 变量 进行 赋值 。 





不 过 图 3-18 的 例子 太 过 简单 ， 大 家 可 能 理解 不 了 模 
式 匹 配 与 普通 的 条 件 判断 有 什么 区 别 ， 又 拥有 什么 特别 
的 优点 。 我 们 再 看 一 个 稍微 复杂 一 些 的 例子 。 图 3-19 是 
使 用 Erlang 的 模式 匹配 来 定义 计算 链表 长 度 的 len () 
函数 。 

在 图 3-19 的 case 语句 中 ， 





最 初 的 模式 是 [] ， 也 就 





fib(N) 
case N of 
Jl em 3 
2 -> 2}; 
ON O) 


end. 


BOY 


+ fib(N-2) 


图 3-18 Erlang 的 模式 匹配 (1) 


len(L) -> 


case L of 


HL Mr 
[ |T] -» 1 « len(T) 
end. 


图 3-19 Erlang 的 模式 匹配 (2) 


是 空 链表 ， 这 就 意味 着 当 表 达 式 L 与 空 链 表 匹 配 时 ， 链 表 的 长 度 为 0。 





接 下 来 的 这 个 模式 就 有 点 特殊 了 。 





(D — 斐 波 那 契 数列 











间 的 是 这 样 一 个 数列 : 1, 1, 2, 3, 5, 8, 13, …。 从 第 三 








子 给 出 的 数列 第 二 项 为 2， 与 一 般 的 斐 波 那 契 数列 略 有 








区 别 。 





项 








每 一 项 都 等 于 前 两 项 之 和 。 本 书 的 例 
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ii] 


UU 这 个 模式 的 意思 是 链表 最 前 面 的 元 

素 为 ““”， 其 余 为 T， 链 表 不 为 空 时 会 。 1en([1,2,3,4]) = len([1| [2,3,4]]) 
a len(I2| [3,411) 
+ 1 + len([3|[4]]) 
+1 + 1 len([4| (11) 
+ 1 +1 + 1 + len([]) 
0 











匹配 这 个 模式 。 在 Erlang 的 模式 匹配 中 ， 
_” 这 个 变量 可 以 匹配 任意 字符 ， 这 就 a 
表示 它 不 关心 匹配 的 内 容 ， 这 样 就 可 以 » 
T 
4 








把 链表 开头 和 末尾 的 元 素 逐 个 取出 来 。 = 
也 就 是 说 ， 去 掉 开 头 的 一 个 元 素 之 后 ， 
用 len() 计算 链表 了 的 长 度 ， 然 后 再 加 

1， 即 可 求 得 这 个 链表 的 长 度 。 这 个 程序 

运行 后 ， 会 像 图 3-20 一 样 进行 计算 。 














图 3-20 len 的 计算 





与 递归 组 合 使 用 会 很 方便 








链表 长 度 就 是 将 开头 元 素 的 长 度 (1) 加 上 剩余 链表 的 长 度 ， 这 种 递归 的 定义 也 许 不 好 理解 ， 
但 熟悉 之 后 就 不 会 觉得 难 了 。 男 外 ， 在 处 理 这 种 具有 递归 结构 的 数据 结构 时 ,使 用 模式 匹配 ( 与 函 
数 的 递归 调用 的 组 合 ) 会 非常 方便 。 这 正 是 很 多 函数 式 语言 具备 模式 匹配 功能 的 原因 。 

除了 这 里 介绍 的 Erlang 之 外 ,具备 模 式 匹 配 功能 的 函数 式 语言 还 有 很 多 ， 比 如 下 面 这 儿 个 。 




































































e Haskell 
e OCaml 


e Scala 


实际 上 ， 声 称 自 己 是 函数 式 语 言 的 编程 语言 基本 上 都 具备 模式 匹配 功能 ， 不 具备 模式 匹配 功能 
的 只 有 很 久 以 前 就 存在 的 Lisp ( 最 近 不 怎么 被 当 作 函 数 式 语言 ) 及 其 直系 子孙 Clojure IE 





























o 





使 用 尾 递归 进行 优化 


顺便 说 一 句 ， 图 3-19 的 递归 函数 在 链表 特别 长 的 情况 下 会 耗 光 调用 栈 。 我 们 可 以 使 用 尾 递归 
这 项 技术 来 解决 这 个 问题 。 
尾 递归 是 指 在 函数 执行 的 最 后 调用 自身 。 这 种 形式 的 递归 函数 调用 可 以 优化 为 循环 的 方式 ， 这 
样 调 用 栈 就 不 会 被 浪费 ， 函 数 调用 也 可 以 省 略 。 但 如 果 是 图 3-19 那样 的 结构 ， 也 就 是 下 面 这 种 结 
构 ， 最 后 执行 的 就 是 “+” 苑 数 ， 即 使 进行 了 递归 调用 ， 也 无 法 成 为 尾 递归 。 







































































1 + Len(T) 
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如 果 像 图 3-21 那样 进行 修改 ， 就 会 成 为 尾 递 归 。 在 
Erlang 中 ， 参 数 个 数 如 果 不 同 就 会 被 当成 不 同 的 函数 ， 
图 3-21 所 示 的 程序 就 利用 了 这 一 点 。 如 果 是 其 他 语言 ， 
只 需 修改 一 下 有 两 个 参数 的 那个 函数 名 即 可 。 这 是 将 递 
归 函 数 变 为 尾 递 归 的 一 个 简单 的 技巧 。 









































m Streem 的 模式 匹配 


接 下 来 就 要 思考 如 何 实现 Streem 的 模式 匹配 了 。 








len(L) -» Len(L, 0). 
Len(L, Acc) -» 





case L of 
|l =s Acc; 
AED irem EMI 


end. 


图 3-21 Erlang 的 模式 匹配 ( 尾 递 归 ) 


这 里 给 大 家 介绍 一 件 在 我 反复 试验 的 过 程 中 发 生 的 事情 。2016 年 5 月 左右 ， 函 数 的 参数 在 某 个 





瞬间 由 











(x -» print(x)] 


变 为 了 


{ll Tse (Cy 








这 件 事情 的 发 生 就 是 受到 了 反复 试验 的 影响 。 我 不 慎 提 交 了 手头 的 修改 ， 这 个 修改 便 向 全 世界 



































公开 了 。 结 果 在 之 后 的 东京 Ruby 会 议 的 演讲 中 ， 我 也 不 得 不 使 用 这 个 语法 进行 说 明 。 
经 过 反复 试验 确定 下 来 的 Streem 的 模式 匹配 语法 如 下 所 示 。 




















通过 case 和 if 语句 实现 模式 匹配 





首先 ， 我 们 将 模式 写 在 函数 对 象 的 参数 部 分 。 要 想 放置 模式 ,就 需要 在 开头 加 上 case X 


键 字 。 


case 模式 -> 运行 语句 


另外 ， 也 可 以 像 图 3-22 那样 ， 通 过 并 列 多 个 casei 
句 来 指定 多 个 模式 。 在 所 有 模式 都 不 匹配 的 情况 下 ， 可 以 
使 用 else 语句 。 

包含 模式 匹配 的 函数 的 调用 与 普通 函数 相同 。 如 图 3-23 
所 示 ， 函 数 一 旦 被 调用 ， 就 会 从 上 到 下 依次 进行 模式 匹配 ， 
匹配 成 功 时 执行 “- >” 之 后 的 语句 。 

当 有 多 个 模式 匹配 时 ， 只 有 第 一 个 匹配 到 的 模式 生效 。 















































ios i 
case 1,x -> print (x+1) 
case 2,x -> print (x*2) 
else -» print("else") 


) 


图 3-22 多 个 case 5 else 


如 果 所 有 模式 均 不 匹配 ， 则 会 抛 出 异常 。 

case 语句 中 也 可 以 使 用 i£ 条 件 语句 (图 3-24 ), 
这 种 条 件 语句 称 为 “守护 ” 如 果 不 满足 i£ 指定 
的 “守护 ”条 件 ， 即 使 与 指定 的 模式 相 匹 配 ， 也 
会 被 认为 匹配 不 成 功 。 








通过 match 苞 数 进行 模式 匹配 





不 进行 函数 调用 ， 直 接 进 行 模式 匹配 时 使 
H match 函数 。 使 用 match 函数 的 模式 匹配 
如 图 3-25 所 示 。match 函数 在 本 质 上 只 是 对 作 
为 参数 传 过 来 的 函数 对 象 进 行 调用 ， 但 意外 地 与 
Streem 的 语法 很 相配 ， 看 上 去 像 是 其 他 语言 的 模 
式 匹 配 的 语法 ， 而 且 作用 也 基本 相同 。 
使 用 Streem 的 模式 匹配 语法 重新 编写 如 图 
3-18 所 示 的 程序 ， 结 果 如 图 3-26 所 示 。 






































m 模式 匹配 的 语法 


前 面 粗略 地 介绍 了 模式 匹配 的 相关 内 容 ， 接 
下 来 我 们 考虑 一 下 细节 。 
模式 匹配 的 作用 是 把 值 与 模式 进行 比较 ， 判 
断 值 是 否 匹 配 模式 。 表 3-3 列举 了 模式 的 种 类 。 








表 3-3 模式 的 种 类 














变量 foo 与 变量 绑 定 

字符 串 foo 匹配 到 字符 串 

数值 42 匹配 到 数值 

数组 [EUST 匹配 数组 的 各 个 元 素 

结构 体 [kw:a] 匹配 结构 体 ( 带 名字 的 数组 ) 
变量 模式 
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d 
^T] 


# => 3 ( 根据 2+1i 
# =- 2 (TRÉEl1*2TY 
4 => else (不 匹配 ) 


ONL AN 
fooi2. 1 
foo(1) 








T T 
EE EE 
| d nus 








ES 
Zi 


图 3-23 ”模式 匹配 的 执行 示例 


orsus rte (T) 
Cape x ab se m (0 em prime (w) 


CAES zc inE sw c (0 print( 


) 
sign(0) # => "o" 
Saca (LOY dS em UE 
sign(-1) # => "-" 
图 3-24 t iR “F” RAR 


match(1,2) { 
case 1,x -> print (x+1) 
case 27x > print(x*2) 


else -» print("else") 


图 3-25 match 函数 


fib - ( 
case I s 
case 2 -> 2 
case n -> fib(n-1) + fib(n-2) 


) 


图 3-26 用 Streem 编写 图 3-18 的 模式 匹配 


首先 看 一 下 第 一 个 模式 一 一 变量 。 变 量 是 Streem 的 标识 符 ， 以 英文 字符 〈 字 母 ) 开头 ， 后 面 
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跟 英 文字 符 和 数字 。 不 过 Streem 的 关 


RE 








键 字 不 能 是 变 
达 式 。 








量 。 变 量 可 以 匹配 任意 表 





case x, 


same - ( 


case , 


变量 分 为 “已 绑 定 值 的 状态 ”和 ) 


未 绑 定 值 的 状态 ”。 
定 了 值 的 变量 称 为 





LRI 



































通过 


“已 绑 定 值 的 状 


赋值 和 模式 匹 











态 ”"， 未 确定 值 的 变量 


的 状态 ”。 
配 时 ， 会 与 党 
常会 返回 成 功 


模式 匹配 时 ， 如 果 符 





我 们 通过 一 个 例子 来 加 深 理 解 。 图 
在 same 函数 的 模式 匹配 中 变量 x 
通配符 模式 


变量 的 匹配 中 有 一 个 例外 情况 ， 那 就 是 变量 “_” 
一 个 变量 可 以 被 匹配 无 数 次 。 RN 
_” 称 为 占 位 符 变 量 。 由 于 “ 
图 3-27 的 same rf 








”与 具体 的 变 





则 称 为 “未 绑 定 值 
对 未 绑 定 值 的 变量 进行 模式 匹 


试 匹 配 的 值 进行 绑 定 ， 通 





。 对 已 绑 定 值 的 变量 进行 


























第 二 个 值 不 同 ， 也 会 被 判断 为 匹配 。 


不 能 变 为 已 绑 定 值 的 状态 


Ze i 


种 情 况 会 按 有 照 未 定义 的 


字面 量 模式 


如 果 仅 仅 
在 于 模式 匹配 
^r T 














Streem IBS VU Re rp HR EIS] rf 
把 模式 包含 


由 于 数组 





E REL 
是 变量 


除了 变量 ， 


i 量 是 指 具体 的 值 。 如 果 模 式 中 有 字 


ap 
就 意 








的 罗列 ， 那 么 模式 匹配 与 一 般 的 函 





还 可 以 直接 罗列 字面 量 

















print 


same 


print (same 


( 
( 
( 
( 


print (same 





( 
( 
( 
( 


X -> true # 


-> false # 


print (same (1,1)) 


31,21) 
[1], 
[1], 














( literal )。 





味 着 无 法 取出 值 ， 即 使 
变量 进行 处 理 ， 即 报错 。 


) > 
[1])) # 
[2] ) ) # 


永远 不 能 变 为 已 绑 定 值 的 状态 。 也 就 是 说 ， 同 
在 不 关心 变量 的 具体 值 的 情况 下 ， i 
”什么 都 可 以 匹配 ， 所 以 有 时 候 也 叫 作 通配符 变 
函数 的 定义 中 出 现 了 下 面 这 行 代码 。 














量 不 同 ， 它 什么 都 可 以 匹配 ， 所 以 这 里 如 呈 


I 








匹配 也 不 能 使 用 变 


使 用 了 “_ 


comparison in match 
fallback 


true 
false 
=> Crue 
=> false 


图 3-27 使 用 模式 匹配 进行 相等 比较 
试 匹 配 的 值 与 已 绑 定 的 值 相等 ， 则 返回 成 功 。 
3-27 所 示 为 使 
出 现 了 两 次 ， 当 这 两 个 值 相等 时 ， 


j 模 式 匹 配 进行 相等 比较 的 函数 。 


结果 为 真 (true), 











就 可 以 使 用 变量 ““。 由 








里 





o 





”， 那 么 即使 第 一 个 值 和 


E, 


CER. 


"O7 BUfü. 3x 





符 串 和 数值 ， 那 么 在 与 值 本 身 匹 配 时 ， 
EATE., XUE, true, false 和 mil。 


在 元 素 之 中 ， 所 以 与 字面 量 的 处 理 方式 不 同 。 


数 参数 也 没有 多 大 区 别 。 两 者 的 不 同 之 处 就 





则 匹配 成 功 。 
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数组 模式 

















数组 模式 用 于 匹配 数组 ， 其 基本 形式 如 下 所 示 ， 中 括号 “[] ”之 间 排 列 的 是 用 逗号 分 隔 的 模式 。 








[模式 ， 模 式 ，...] 


数组 匹配 在 满足 下 列 条 件 时 匹配 成 功 。 


1. 要 匹配 的 值 是 数组 
2. 模式 的 数量 与 数组 元 素 的 数量 相同 
3. 所 有 的 模式 匹配 均 成 功 






































数组 模式 匹配 的 例子 如 图 3-28 所 示 。 




















match([1,2,3]) ( # 对 数组 [1, 2,3] 进行 匹配 
case [a] -» print(1) # 与 1 个 元 素 的 数组 匹配 
case [a,b] -> maiae (2) # 与 2 个 元 素 的 数组 匹配 
case [1.5,b,c] -» print(1.5) # 与 开头 元 素 是 1.5 的 3 个 元 素 的 数组 匹配 
case [a,"b".c] -» print ("b") # 与 第 2 个 元 素 是 “b” 的 3 个 元 素 的 数组 匹配 
case [a,b,c] -> print (3) # 与 任意 的 3 个 元 素 的 数组 匹配 
case _ -> print ("any") # 不 论 是 否 是 数组 ， 都 进行 匹配 














图 3-28 数组 模式 匹配 
由 于 数组 的 匹配 是 递归 结构 ， 所 以 也 可 以 写 出 数组 的 数组 等 模式 ， 比 如 下 面 这 个 模式 。 








[[a,b1, [c, 31] 


这 个 模式 中 的 2 个 元 素 分 别 是 2 个 数组 ， 每 个 数组 〈 元素 ) 中 又 包含 2 个 元 素 。 如 果 匹 配 成 
功 ， 各 个 元 素 的 值 会 与 名 为 a、b、c、d 的 变量 绑 定 。 
如 果 把 这 个 模式 修改 为 





L[ [a,b], [a,b1] 





那么 只 有 2 个 元 素 相等 的 数组 才 会 匹配 ， 例 如 下 面 这 个 数组 。 











L[E2,21, [1,21] 
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可 变 长 度数 组 模式 
match([1,2,3]) 4 
除了 把 模式 作为 数组 元 素 的 数组 模式 ， came lab] om 
prin a => SS 
Streem 还 提供 了 从 长 度 不 明确 的 数组 中 取出 其 print(b) 4 => [2,3] 人 (其余 的 元 素 ) 











中 一 部 分 元 素 的 方法 。 在 这 种 数组 元 素 的 模式 } 
中 ， 添 加 “ 变量 ”之 后 ， 其 余 不 匹配 的 元 素 
就 能 够 作为 数组 与 变量 绑 定 ， 如 图 3-29 所 示 。 ”图 3-29 ”可 变 长 度数 组 模式 
可 变 长 度数 组 “* 变量 ”只 能 在 数组 模式 的 任意 位 置 出 现 一 次 。 也 就 是 说 ， 它 既 可 以 像 前 面 的 
例子 一 样 出 现在 末尾 ， 也 可 以 像 下 面 这 样 出 现在 开头 。 



































[*a,b] 





当然 也 可 以 出 现在 中 间 ， 如 下 所 示 。 


lar “o (e 


























但 如 果 是 像 下 面 这 样 在 同一 层级 中 出 现 了 多 次 可 变 长 度数 组 模式 ， 那 么 匹配 的 范围 就 无 法 确定 ， 
种 情况 就 会 被 当成 语法 错误 来 处 理 。 


5 


[a, *b, c, *d] 
本 节 开 头 出 现 的 Erlang 的 模式 ， 即 
[H| T] 
在 Streem 中 为 


[ist sam 











其 实 Streem 的 内 部 实现 是 数组 ，Erlang 的 内 部 实现 是 链表 。 虽 然 二 者 的 内 部 实现 不 同 ， 但 是 匹 
配 开 头 的 元 素 和 剩余 元 素 这 一 动作 是 相同 的 。 











结构 体 模式 
在 Streem 中 ， 数 组 的 各 个 元 素 都 会 被 赋 耶 名字， 这 就 是 所 谓 的 “ 带 标签 的 数组 "， 这 里 称 为 结 
构 体 。 








结构 体 也 是 模式 匹配 的 对 象 。 结 构 体 模式 的 语法 如 下 所 示 。 
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[53$ 4E, ...] 





当 指 定 标 签 的 模式 与 其 相对 应 的 值 全 部 匹配 时 ， 判 定 为 结构 体 整 体 匹配 。 

基本 规则 很 简单 ， 但 实现 时 我 们 也 要 考虑 到 极端 情况 。 

最 先 需 要 思考 的 一 点 是 ， 由 于 结构 体 的 内 部 实现 是 带 标签 的 数组 ， 所 以 元 素 之 间 会 有 明确 的 顺 
序 。 我 们 需要 决定 在 模式 指定 的 标签 与 数组 的 标签 的 顺序 不 同 的 情况 下 是 否 应 该 匹配 。 

从 易 用 性 的 层面 来 看 ， 还 是 不 考虑 顺序 为 好 。 作 为 结构 体 使 用 的 数据 结构 很 少将 各 个 元 素 的 顺 
序 纳 入 考虑 范围 内 ， 更 何况 正 是 由 于 不 想 考 虑 顺序 才 添 加 的 标签 。 

接 下 来 需要 思考 的 是 ， 为 了 匹配 结构 体 ， 是 所 有 的 标签 都 要 一 致 ， 还 是 只 要 部 分 一 致 即 可 认为 
匹配 成 功 。 

我 们 也 尝试 从 易 用 性 的 角度 来 思考 这 一 点 。 
如 果 强 制 完全 匹配 ， 那么 向 结构 体 中 添加 元 素 时 ， 所 有 的 模式 都 需要 进行 相应 的 修改 。 如 果 人 允许 
部 分 匹配 ， 那 么 从 构造 体 中 取出 部 分 元 素 时 就 可 以 使 用 模式 匹配 。 这 样 看 来 ， 人 允许 部 分 匹配 会 更 好 。 

最 后 需要 思考 的 是 ， 构 造 体 的 标签 其 实 是 允许 重复 的 ,那么 当 同 一 个 构造 体 中 有 多 个 同样 的 标 
签 时 ， 该 如 何 进行 模式 匹配 呢 ?7 比如 下 面 这 个 结构 体 。 在 这 种 情况 下 ， 匹 配 标签 a 的 模式 应 该 匹配 
1 还 是 匹配 3 呢 ? 




































































LI 
































[a:1,b:2,a:3] 


对 此 ， 我 想到 了 两 种 解决 方案 。 




















1. 总 是 匹配 最 前 面 的 标签 
2. 按照 标签 的 出 现 顺序 进行 匹配 

















方案 1 非常 简洁 。 它 的 优点 是 实现 起 来 比较 简单 ， 而 且 行 为 也 容易 预测 ， 但 是 只 能 匹配 到 多 个 
值 中 的 第 一 个 值 。 

如 果 是 下 面 这 种 方案 2 的 模式 ， 带 有 标签 a 的 第 一 个 模式 就 会 匹配 到 第 一 个 a ff Ci), a 
有 标签 a 的 第 二 个 模式 就 会 匹配 到 第 二 个 a 的 值 (3 )。 























[ee 





方案 2 更 加 全 面 ， 所 以 用 户 体 验 会 更 好 ， 但 这 次 我 决定 采用 较为 简单 的 方案 1。 因 为 从 过 去 的 
经 验 来 看 ， 方 案 2 很 可 能 会 带 来 意 想不到 的 问题 。 在 这 种 异常 情况 上 花费 过 多 的 精力 有 些 得 不 偿 
失 ， 而 且 行为 难以 预测 还 可 能 会 给 用 户 带 来 困扰 。 

图 3-30 是 最 终 确 定 的 结构 体 模式 匹配 的 示例 。 使 用 这 个 结构 体 模式 匹配 ， 就 可 以 轻松 地 从 
CSV 读 取 到 的 数据 中 抽取 一 部 分 并 显示 ， 具 体 代码 如 图 3-31 所 示 。 
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结构 体 ( 带 标签 的 数组 ) 模式 匹配 

即使 不 使 用 b 也 可 以 匹配 

只 使 用 第 一 个 标签 a， 所 以 x 匹配 到 的 值 也 是 1 
不 考虑 标签 的 顺序 

zc gs 


match([a:1,b:2,0:3,a:34]) 1 


case [a:a, c:c, a:x] -» 
























































dk db db dt H 


pamedan od] J) 


图 3-30 ”结构 体 模 式 匹 配 


以 下 CSV 文 件 ( voters.csv) 
name,address,age 

松本 行 弘 ， 岛 根 县 松江 市 ，51 
松本 拓 人 ， 岛 根 县 松江 市 ，19 
松本 x x ， 岛 根 县 松江 市 ，4 
松本 x x ， 岛 根 县 松江 市 ，1 









































Tb db Gb Gb Gb dt 
































# 从 voters.csv 中 筛选 并 显示 有 选举 权 的 人 
fread("voters.csv")|csv()]|each( 
# 从 2016 年 开始 18 岁 以 上 的 人 拥有 选举 权 " 
case name:name, age:age if age>=18 -> 
print (name) # 显示 有 选举 权 的 人 的 名 字 
else -> # 没有 选举 权 就 什么 也 不 做 






















































































图 3-31 CSV 的 读 取 和 数据 抽取 











结构 体 模式 也 可 以 应 用 于 可 变 长 度数 组 。 不 过 由 于 结构 体 模式 不 考虑 元 素 的 顺序 ， 所 以 “” 变 
量 ” 只 能 出 现在 未 尾 。 这 时 会 把 已 经 指定 了 标签 的 值 以 外 的 值 作为 一 个 结构 体 ( 带 标签 的 数组 ) 赋 
值 给 “” 变量 ”。 

我 们 来 看 下 面 这 个 示例 。 

















vaccata L osi cas) 1 
case [a:x,*z] -» print(x,z) 


) 


这 段 代 码 会 输出 什么 呢 ? 答案 如 下 所 示 。 








中 ”这 里 是 指 日 本 的 情况 。 一 一 译 者 注 
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1 I5r2.0:3] 


也 就 是 说 ,根据 a :x 模式 ,标签 a 所 对 应 的 值 1 会 赋值 给 变量 x， 而 标签 a 以 外 的 元 素 会 作 
为 结构 体 赋值 给 z。 

那么 从 结构 体 中 取出 可 变 长 度数 组 时 ， 如 果 存 在 多 个 同名 的 标签 ， 会 返回 什么 值 呢 ?我 们 分 别 
从 指定 了 重复 的 标签 和 指定 了 非 重复 的 标签 这 两 种 情况 来 考虑 。 

下 面 的 程序 会 分 别 输出 什么 值 呢 ? 





























指定 了 重复 的 标签 的 情况 
inen ( jesi bea era SI) K 


case [a:x,*z] > print(z) 








} 





指定 了 非 重复 的 标签 的 情况 
match([a:1,b:2,a:3]) ( 
Gee loss aa] e em) 


} 








大 家 不 妨 利用 这 个 机 会 ， 在 纸 上 列 出 可 能 实现 的 模式 ， 考 虑 一 下 哪 种 做 法 更 好 。 易 用 性 和 实现 
的 复杂 程度 等 都 是 需要 考虑 的 因素 。 

大 家 考虑 好 之 后 ， 可 以 下 载 最 新 的 Streem 代码 并 编译 执行 上 面 的 代码 ， 看 看 会 返回 什么 结果 ， 
比较 一 下 是 否 与 自己 的 结论 相同 。 

假如 有 读者 读 了 这 一 节 ， 并 且 思 考 了 这 个 问题 那么 这 些 读者 所 做 的 事情 正 是 语言 设计 者 日 党 
进行 的 语言 设计 活动 。 

我 希望 读者 中 会 有 人 想 在 今后 去 尝试 设计 语言 。 



































命名 空间 模式 











我 们 在 3-2 节 介 绍 过 ，Streem 中 所 有 的 值 都 带 有 命名 空间 ， 命 名 空间 汇总 了 该 值 可 以 使 用 的 函 
数 。Streem 的 命名 空间 就 相当 于 其 他 语言 中 的 类 ， 用 来 表示 值 的 类 型 。 


















































在 确认 类 型 时 可 以 使 用 命名 空间 模式 。 命 名 空间 模式 的 表示 方法 是 在 其 他 模式 之 后 加 上 “e@ ds 
名 空间 名 ”。 
比如 下 面 这 个 模式 在 值 的 命名 空间 为 string 时 则 匹配 成 功 ， 将 字符 串 赋 值 给 scr 变量 。 
str@string 


命名 空间 模式 还 有 另 一 种 表示 方法 ， 如 下 所 示 。 
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[e 命名 空间 名 值 ， 


只 需 在 数组 (或 者 结构 体 ) 的 开头 加 上 “@ 命名 空间 名 ” 即 可 ,含义 与 下 面 这 种 写法 无 异 。 


[ 值 ，.. .]@ 命 名 空间 名 











这 是 在 强调 该 数组 是 使 用 了 命名 空间 的 特殊 的 数组 时 使 用 的 表示 方法 。 
请 记 住 用 

















new namespace [数组 ] 











创建 的 对 象 可 以 用 以 下 模式 去 匹配 。 











[enamespace 数组 模式 ] 


小 结 


本 节 讲 解 了 Streem 中 新 引入 的 模式 匹配 功能 ， 同 时 也 向 大 家 介绍 了 在 设计 模式 匹配 行为 的 过 
旦 中 ， 语 言 设计 者 是 如 何 进行 思考 的 。 








时 光 机 专栏 
最 适合 Streem 的 模式 匹配 功能 











本 节 是 2016 年 9 月 刊 中 刊登 的 内 容 。 这 次 设计 并 实现 了 很 多 函数 式 语言 都 有 的 模式 匹配 


功能 。 模 式 匹 配 功能 还 是 很 有 必要 的 ， 特 别 是 根据 不 同 的 模式 来 分 别处 理 管道 中 的 数据 这 一 做 
法 ， 非 常 适合 Streem 所 推崇 的 流 编程 。 我 非常 期 待 模式 匹配 在 Streem 编程 中 的 表现 。 
其 实 我 也 很 想 在 Ruby 中 引入 模式 匹配 功能 ， 但 由 于 这 个 功能 与 现 有 语法 相 冲 突 ， 







































































再 加 上 
功能 上 的 一 些 限制 ， 所 以 目前 还 没有 实现 。 不 过 过 去 也 有 一 些 功 能 原本 在 Ruby 中 不 存在 ， 
天 来 经 过 反复 试验 而 最 终 实现 了 的 ( 比如 Refinement )， 所 以 我 希望 将 来 也 能 实现 模式 匹配 。 

杂志 连载 的 顺序 与 实际 成 书 时 的 顺序 不 同 
部 分 内 容 放 到 了 本 书 的 5-3 节 。 






















































































， 连 载 时 本 节 内 容 还 包括 了 CSV 读 取 功 能 ， 但 这 
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实现 Streem 的 对 象 
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图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) FF 











-1 套 接 字 编 程 


通过 前 面 的 开发 ，Streem 语 言 已 经 达到 姑且 可 以 使 用 的 程度 了 。 本 节 先 暂停 语言 处 理 






































器 的 话题 ， 来 介绍 一 下 网 络 编程 的 相关 内 容 ， 在 Streem 中 增加 使 用 套 接 字 进 行 网 络 通 
信 的 功能 。 














如 今 ， 网 络 就 像 空气 一 样 不 可 或 缺 。 最 近 计算 机 作为 单机 使 用 的 情况 越 来 越 少 ， 很 多 应 用 必须 
连接 网 络 才 能 使 用 。 出 差 坐 飞机 时 不 能 联网 ， 更 加 让 我 意识 到 网 络 对 于 日 常 使 用 的 应 用 来 说 多 么 
重要 。 

虽说 并 不 是 必需 的 ， 不 过 我 们 还 是 给 Streem 加 上 网 络 通 信 的 功能 为 好 。 这 也 是 Streem 功能 扩 
展 的 一 个 好 例子 。 











Streem 的 套 接 字 API 











首先 来 看 一 下 用 Streem 编写 的 使 用 套 接 字 的 程序 。 图 4-1 所 示 为 用 Streem 开发 的 网 络 服务 器 
的 代码 ， 图 4-2 所 示 为 客户 端的 实现 。 
这 些 代 码 都 过 于 简单 ， 让 人 有 些 提 不 起 劲 来 。 接 下 来 我 就 逐 行 解释 一 下 。 





USE 和 Eeecseaoiceshnssie BOO 


O1 4$ simple echo server on port 8007 02 stdin | s 

02 tcp server(8007) | (s -> s | s) 03 s | stdout 
图 4-1 用 Streem 开发 的 网 络 服务 器 的 代码 图 4-2 用 Streem 开发 的 网 络 客户 端的 代码 
Streem 网 络 服务 器 





我 们 先 看 图 4-1 的 代码 。 第 1 行 只 是 注释 ， 意 思 是 “在 8007 端口 监听 的 echo 服务 器 "。 整 个 程 
序 只 有 2 行 , 但 实际 上 只 用 了 1 行 就 写 出 了 网 络 服务 器 的 代码 。 

网 络 连接 通过 主机 名 和 端口 〈 端 口号 或 服务 名 ) 指定 。 这 个 服务 器 启动 后 ， 客 户 端 可 以 通过 指 
定 的 主机 名 和 端口 号 ( 8007 ) 连接 。 

tcp server(8007) 是 创建 服务 器 的 函数 。 这 个 函数 的 作用 是 创建 服务 器 套 接 字 ， 等 待 客户 
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端 连接 ， 当 接收 到 客户 端 连 接 时 ， 创 建 相应 的 客户 端 套 接 字 ， 并 向 管道 发 送 数据 。 

接 下 来 的 {s -> s | s) 是 函数 的 主体 部 分 。 在 Streem 中 葡 数 用 管道 连接 ， 把 流向 管道 的 各 
个 元 素 作为 参数 传 给 函数 ， 并 调用 该 函数 。 示 例 中 的 函数 把 连接 客户 端的 套 接 字 作为 参数 ， 通 过 管 
道 将 其 连接 。 乍 一 看 也 许 不 知道 s | s 是 用 来 做 什么 的 ， 其 实 它 的 意思 是 “将 收 到 的 客户 端 套 接 字 
的 输入 直接 返回 "。 请 注意 套 接 字 是 可 以 双向 通信 的 ， 既 可 以 接收 数据 ， 也 可 以 发 送 数据 。 

普通 的 服务 需 会 把 读 取 到 的 信息 加 工 之 后 再 返回 ， 处 理会 更 加 复杂 一 些 。 










































































Streem 网 络 编程 的 客户 端 


图 4-2 的 客户 端 程序 也 很 简单 。 第 1 行 代 码 tcp_socket ("localhost"， 8007) 会 生成 连 
接 localhost 主机 的 8007 端口 的 套 接 字 ， 并 赋值 给 变量 s。 

第 2 行 表 示 把 从 标准 输入 (stdin ) 接收 到 的 数据 发 送 给 套 接 字 ， 这 样 就 可 以 通过 套 接 字 向 网 
络 服务 器 发 送 数据 了 。 

第 3 行 表示 把 从 网 络 服务 器 接收 到 的 数据 发 送 给 标准 输出 (stdout )。 

这 个 程序 与 图 4-1 的 echo 服务 器 建立 连接 后 ， 双 方 就 会 进行 网 络 通信 ， 把 从 键盘 输入 的 字符 串 
原封 不 动 地 返回 ( 如 果 不 考 虑 网 络 通信 ， 这 其 实 就 相当 于 执行 没有 参数 的 cac 命令 )。 

可 以 看 出 ， 即 使 是 连接 了 套 接 字 的 网 络 编程 ， 也 可 以 使 用 Streem 轻松 地 编写 。 




































































Streem 的 功能 扩展 


接 下 来 我 们 看 一 下 Streem 如 何 实现 这 种 套 接 字 功能 。 首 先 从 向 Streem 添加 函数 开始 。 

从 图 4-1 和 图 4-2 的 程序 中 我 们 可 以 看 出 ， 套 接 字 功能 是 通过 在 Streem 中 增加 2 个 函数 实现 
的 。 向 Streem 添加 函数 定义 时 ， 代 码 如 图 4-3 所 示 ( 为 了 方便 说 明 ， 我 对 实际 代码 做 了 一 些 修改 )。 
这 次 解说 的 实际 的 C 代码 保存 在 Streem 源 代码 的 socket.c 文件 中 。 











ime tap perver (etiu Erates, mn Serm veltes, prem valvas) p 


nma episSocker( str rmistat einne MSto MVC SMS ema e 


void 

strm socket init(strm state* state) 

{ 
Strm var def("tcp server", strm cfunc value(tcp server)); 
strm var def("tcp socket", strm cfunc value(tcp socket)); 


) 


图 4-3 向 Streem 中 增加 函数 定义 
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在 Streem 中 ,用 C 开发 的 (全 局 ) 国 数 是 按照 以 下 步骤 定义 的 。 

首先 从 C 函数 指针 开始 创建 男 数 对 象 。 这 里 使 用 的 是 strm_cfunc_value() 
strm cfunc value () 添加 的 函数 的 返回 值 类 型 必须 是 int, 而且 要 有 4 个 参数 : 第 
strm state* 是 方法 调用 的 语 境 ; 第 2 个 参数 int 是 传 给 Streem 函数 的 参数 的 数量 ; 第 
是 保存 参数 的 数组 ; comu 函数 本 身 的 返回 值 代表 函数 的 执行 " 成 
功 时 返回 STRM_OK(=0) ， 失 败 时 返回 STRM NG(-1). 

sw M 量 。 定 义 全 局 变量 时 使 用 的 是 strm var def () KX 

用 于 初始 化 的 函数 stzm_socket_init O 由 解释 器 的 初始 化 函数 node_init () 调用 。 增 
加 新 功能 之 后 ， 不 要 忘 了 从 node init () 调用 新 功能 的 初始 化 函数 。 





















































什么 是 套 接 字 


那么 类 UNIX 操作 系统 中 的 套 接 字 到 底 是 什么 呢 ? 
套 接 字 是 用 来 作为 网 络 连接 通道 的 “操作 系统 对 象 ”。 据 说 套 接 字 是 在 BSD4.2 系统 中 被 发 明 出 
来 的 。 
套 接 字 通过 被 称 为 文件 描述 符 的 整数 来 识别 。 这 种 整数 与 在 open 系统 调用 中 打开 的 文件 等 是 
相同 的 标识 符 。 此 外 ， 套 接 字 也 支持 对 文件 描述 符 实施 一 些 通 用 的 操作 ， 比 如 可 以 进行 read. Ciz 
H), write (A ), select (等候 )、close (结束 ) 等 处 理 。 
不 过 仔细 想 一 想 ， 代 表 磁 盘 文 件 的 文件 描述 符 与 代表 网 络 连接 的 套 接 字 的 文件 描述 符 在 读 写 等 
处 理 上 不 可 能 完全 相同 。 这 就 说 明 系统 调用 在 内 部 会 根据 文件 描述 符 的 种 类 自动 选择 合适 的 处 理 。 
根据 对 象 的 种 类 自 适 的 处 理 也 是 面向 对 象 的 一 种 形式 。 从 这 个 角度 来 看 ，UNIX 其 实 
是 面向 对 象 操作 系统 ， 真 是 令 人 惊讶 。 










































































客户 端 套 接 字 


套 接 字 的 使 用 方法 并 不 难 ， 但 是 在 使 用 C 语言 进行 套 接 字 编程 时 ,( 可 以 非常 细致 地 进行 设置 
的 ) 步 又 有 很 多 。 这 里 我 们 对 大 致 步骤 进行 说 明 ， 首 先 从 相对 简单 的 客户 端 开 始 。 
从 客户 端 开 始 的 套 接 字 通 信步 又 如 下 所 示 。 






































1. 获取 要 连接 的 服务 器 的 信息 
2. 生成 套 接 字 

3. 连接 
4. 输入 输出 











首先 指定 要 连接 的 服务 器 。 网 络 服务 器 通过 组 合 主机 名 和 端口 来 指定 。TCP/P 连接 时 ， 主 机 用 
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IP 地 址 表示 。 我 们 平常 看 到 的 “192.168.0.1”“127.0.0.1” 这 种 4 个 (255 以 下 的 ) 数字 的 组 合 就 是 











IP 地 址 。 起 初 TCP/IP 地 址 用 32 位 (4 字 节 ) RIR, P 地 址 则 是 将 各 字 节 转换 为 十 进 制 来 表示 。 

但 是 现在 IPv4 地 址 濒临 枯竭 ， 于 是 便 出 现 了 使 用 128 位 的 IPv6 地 址 。 

在 IPv4 地 址 还 是 主流 的 时 候 ， 从 主机 名 获取 IP 地 址 时 使 用 的 是 gethostbyname () K 
但 现在 通常 都 会 使 用 可 以 区 分 IPv4 和 IPv6 地 址 的 getaddrinfo () 函数 。 

使 用 getaddqrinfo() 函数 可 以 获得 地 址 、 端 口 和 套 接 字 类 型 等 信息 。 之 后 使 用 这 些 信 息 
用 socket () 系统 调用 生成 套 接 字 ， 然 后 用 connect () 系统 调用 连接 服务 器 即 可 。 
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连接 之 后 套 接 字 会 作为 普通 的 文件 描述 符 使 用 ， 因 此 可 以 用 read O 和 write 0 函数 进行 数 
据 的 读 写 。 除 了 这 两 个 函数 之 外 ,还 有 recv GZR) M send (FA ) 等 其 他 读 写 套 接 字 数据 的 




















系统 调用 ， 不 过 目前 我 们 还 用 不 到 它们 ， 之 后 有 机 会 再 进行 介绍 。 





套 接 字 的 使 用 方法 ( 客户 端 ) 


下 面 我 们 就 一 边 阅 读 Streem 实现 的 套 接 字 功能 的 代码 ， 一 边 看 一 下 如 何 用 C 进行 套 接 字 编 
图 4-4 是 Streem 的 tcp_socket 函数 的 实现 。 为 了 方便 说 明 ， 这 里 删除 了 Win32 相关 的 代码 。 





























GuESuEsLG! rie 
EED COCE letan skace! tatc tat ae, Seru velves Arge, Serm valve Sret) 
{ 

struct addrinfo hints; 

struct addrinfo *result, *rp; 

int sock, s; 

const char *service; 

char buf[12]; 

Ser rmEStAimgA Rosty 


if (arge !- 2) ( 
return STRM NG; 
j 
bost = germ value ser ono 
if (strm int p(args[1]1)) ( 
/* 指定 字符 串 形式 的 端口 号 */ 
sprime (pU a (nr me uit (euer [1301] )) )) f 





























Service - buf; 
) 
else { 
trm geringe grr = grr velus S sl ers er SIT y 


service - str-»ptr; 


程 。 
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memset(&hints, 0, sizeof(struct addrinfo)); 





hints.ai family - AF UNSPEC; /* Allow IPv4 or IPv6 */ 所 一 设置 hints 的 值 
hints.ai socktype - SOCK STREAM; 


S = getaddrinfo(host-»ptr, service, &hints, &result); 二 getaddrinfo () 函数 


if (s !- 0) eadar into M 
/* Rigai _strerror () 调查 错误 的 原因 */ 
node raise(state, gai strerror(s)); 
return STRM NG; 


























/* 遍历 adarinfo 党 试 连接 */ 





coe Gao = resule, gə l= Moike g9 = o-se nes) i y socket () 函数 
SOG -Esockebi spa Remilly, pod SOC, Horen POTC) ; 
if (sock == -1) continue; /* 如 果 失 败 则 尝试 下 一 个 */ 
/* 尝试 连接 */ 
if (connect (sock, rp->ai addr, rp->ai addrlen) !- -1) 4— connect() 函 数 
break; /* 如 果 成 功 则 跳出 循环 */ 





close (sock); /* 关闭 套 接 字 再 次 尝试 */ 
} 
/* 释放 addqrinfo 结 果 的 内 存 */ 
freeaddrinfo(result); 


if (rp == NULL) ( /* 连接 全 部 失败 */ 
noder ranse raten OCE Eee aco 
return STRM NG; 


) 
/* 把 socket 封 装 到 stzm_ io 对 象 并 返回 */ 


*ret = strm ptr Value (strm io new(sock, STRM IO READ|STRM IO WRITE 
FLUSH)); 


return STRM OK; 























STRM IO 


图 4-4 tcp. socket 函数 











第 1 步 是 获取 要 连接 的 服务 器 的 信息 。 这 里 使 用 的 是 getaddrinfo () Kt, getaddrinfo() 
将 获取 host, service, hints 和 result 这 4 个 参数 。 

向 第 1 个 参数 host 传递 的 值 是 主机 名 。 这 时 可 以 传递 "127.0.0.1" (IPV4) 和 "::1" 
(IPv6 ) 等 表示 IP 地 址 的 字符 串 。 











pm 





41 套 接 字 编 程 | 187 





向 service 参数 传递 的 值 是 服务 名 。 这 时 系统 会 到 “/etc/services” 文 件 中 根据 服务 名 查找 端 
口号 。 当 传递 的 值 是 "8007" 这 种 由 数字 组 成 的 字符 串 时 ， 就 把 这 个 值 当 作 端 口号 使 用 。 主 机 和 服 
务 可 以 有 一 个 为 NULL， 但 是 如 果 两 个 都 为 NULL， 系 统 就 无 法 获取 信息 ， 从 而 报错 。 

向 hints 参数 传递 的 值 是 作为 获取 信息 的 选项 的 addrinfo 结构 体 。 在 没有 什么 需要 指定 的 
情况 下 ,传递 NULL 即 可 。 这 次 由 于 IPv4 和 IPv6 的 地 址 都 可 以 使 用 ， 所 以 将 ai_family 设 为 AF_ 
UNSPEC。 另 外 ， 由 于 搜索 的 是 TCP 连接 而 非 UDP 连接 ， 所 以 将 ai_socktype 设 为 SOCK STREAM, 

sockaddinfo () 在 成 功 获取 数据 时 会 返回 除 0 以 外 的 值 。 如 果 因 为 某 种 情况 而 获取 失败 ， 可 
以 用 gai strerror () 函数 得 到 表示 错误 原因 的 字符 串 。 

getaddrinfo() 成 功 时 ， 从 传递 了 指针 的 变量 中 可 以 拿 到 addrinfo 结构 体形 式 的 执行 结 
果 。 当 有 多 个 查询 结果 时 ，addrinfo 结构 体会 以 链表 的 形式 存在 ， 可 以 从 开头 按 顺 序 尝试 。 

作为 结果 返回 的 addrintfo 结构 体 在 使 用 后 需要 用 £reeaddrinfo () 函数 进行 内 存 释 放 。 

获取 信息 之 后 ， 套 接 字 连 接 就 很 简单 了 。 使 用 socket O 系统 调用 创建 套 接 字 ， 再 用 
connect () 系统 调用 连接 服务 器 。 调 用 socket () fll connect () 时 需要 的 信息 都 可 以 在 
addrinfo 结构 体 中 找到 。 

connect 系统 调用 成 功 后 ， 就 建立 起 了 与 服务 器 的 连接 。 之 后 就 与 普通 的 文件 描述 符 一 样 ， 
可 以 使 用 read 和 write 进行 读 写 。 需 要 注意 的 是 ， 套 接 字 可 以 使 用 同一 个 文件 描述 符 进行 数据 
的 读 取 和 写 入 ， 这 种 可 以 双向 通信 的 特性 称 为 全 双 工 。 

在 进行 全 双 工 通信 的 情况 下 ， 在 结束 通信 时 如 果 不 小 心 调 用 了 close， 那 么 用 来 读 取 数据 的 通 
信 链 路 和 用 来 写 人 数据 的 通信 链 路 就 会 被 同时 关闭 。 只 关闭 这 种 全 双 工 的 文件 描述 符 的 部 分 通信 链 
路 时 可 以 使 用 shutdown 系统 调用 。 

为 了 让 Streem 支持 套 接 字 ， 我 对 IO 处 理 稍微 做 了 修改 ， 规 定 进行 双向 通信 时 首先 调用 
shutdown 系统 调用 。 当 然 ， 在 对 不 是 全 双 工 的 文件 描述 符 使 用 shutdown 系统 调用 时 会 发 生 错 
误 ， 不 过 没有 什么 危害 ， 所 以 可 以 忽略 。 
























































































































































服务 器 端 套 接 字 


接 下 来 我 们 看 一 下 服务 器 端的 套 接 字 的 用 法 。 服 务 器 端的 套 接 字 通 信步 又 如 下 所 示 。 

















1. 获取 连接 方 的 信息 
2. 创建 套 接 字 
3. listen/bind 








4. accept 
5. 输入 输出 











“获取 连接 方 的 信息 ”的 部 分 与 客户 端 套 接 字 一 样 ， 使 用 的 是 getaddrinfo () 函数 。 不 过 
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如 果 不 考虑 同时 支持 IPv6 和 IPvV4， 也 可 以 不 使 用 getaddrinfo ()， 直 接 进行 socket () 和 
bind() 系统 调用 。 

要 想 作为 服务 器 等 待 客户 端 连接 ， 就 需要 用 listen 系统 调用 指定 等 待 队 列 的 长 度 ， 然 后 用 
bind 系统 调用 注册 服务 器 。 

向 已 注册 的 服务 器 端 套 接 字 进 行 accept 系统 调用 后 ， 就 会 返回 一 个 与 客户 端 连 接 的 新 的 套 接 
字 (文件 描述 符 )。 需 要 注意 的 是 ， 服 务 器 端的 套 接 字 与 客户 端的 套 接 字 不 同 ， 不 能 成 为 输入 输出 
的 对 象 ， 只 用 来 等 待 客户 端 连接 。 

而 与 客户 端 连接 的 套 接 字 是 可 以 进行 普通 的 读 写 操作 的 套 接 字 ， 所 以 能 够 使 用 read/write 
进行 通信 。 






























































套 接 字 的 使 用 方法 ( 服务 器 ) 


由 于 服务 器 端 套 接 字 的 连接 步骤 与 客户 端 有 些 不 同 ， 所 以 提供 服务 器 功能 的 Streem 的 tcp_ 
server KAHJE tcp client 大 不 相同 。 

这 么 说 来 ， 我 还 没有 正式 介绍 Streem 的 任务 创建 方法 ， 这 里 就 一 并 讲解 了 吧 。 

tcp server 图 数 的 实现 如 图 4-5 所 示 。 这 个 函数 负责 生成 套 接 字 ， 然 后 创建 用 这 个 套 接 字 等 
待 连接 的 任务 。 




















struct socket data { 
int sock; 
strm state *state; 


]5 


Statucie 
Ea SOryer (Etrm deee Srece, Mat AraC, Hean values erge, Seri valve et) 
{ 

struct addrinfo hints; 

Struct addrinfo *result, *rp; 

int sock. S: 

const char *service; 

cac butu 5 

struct socket data *sd; 

strm task *task; 


if (argc !- 1) ( 
return STRM NG; 


} 


if (strm int p(args[0])) ( 


4-4 套 接 字 编 程 


sprintf(buf, "$d", (int)strm value int (args[01)); 
Service - buf; 

} 

else { 


volatile peru geringe ger = girn valus ser eser ST OT z 


service - str-»ptr; 


memset (&hints, 0, sizeof (struct addrinfo)); 





hints.ai family = AF UNSPEC; /* Allow IPv4 or IPv6 */ 
hints.ai socktype - SOCK STREAM;/* Datagram socket */ 
hints.ai flags - AI PASSIVE; /* For wildcard IP address */ 
lemma aot ocoT MEMO /* Any protocol */ 


S - getaddrinfo(NULL, service, &hints, &result); 4— getaddrinfo () 函数 
if (s !- 0) ( 

modesta sesta e une ror SIDE 

return STRM NG; 


for (rp - result; rp !- NULL; rp - rp-»ai next) ( 
SockE-Esccketb ptc omisi od Sockel cro oM y 
itf (sock s- -1) continue; 
abe Qac (ecc, re =auace mo-se cxelehsibew)) == 0) 4— bind() 函数 
break; /* Success */ 


close(sock); 


if (rp == NULL) { 
nocdclgndgucelisapcrM socie errori 
return STRM NG; 


) 


freeaddrinfo(result); 


if (listen(sock, 5) < 0) ( 4— listen() K% 
close(sock); 
nodes sspe" Socket eronais tem 
return STRM NG; 
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/* 创建 任务 */ 
/* 任务 数据 的 分 配 与 初始 化 */ 


sd = malloc(sizeof(struct socket data)); 





sd-»sock = sock; 

Sd-»state - state; 

/* 使 用 strm task _ new 创建 任务 */ 

/* strm task_new (任务 类 型 ， 任 务 函 数 ， 结 束 函 数 ， 数 据 ) */ 

task - strm task new(strm producer, server accept, server close, (void*)sd); 
/* 创建 任务 对 象 并 赋值 给 作为 返回 值 的 变量 */ 

*ret - strm task value(task); 

return STRM OK; 


) 







































































图 4-5 tcp. server 函数 


tcp server 图 数 的 实现 与 图 4-4 fj cep. socket PRATISCHRZS SACK, 28 9B EERE 
TULAR. 

首先 ， 客 户 端 需要 指定 要 连接 的 主机 ， 而 服务 器 端 由 于 可 以 接收 来 自任 意 主 机 的 连接 请 求 ， 所 
以 不 需要 指定 主机 。 其 次 ,在 hints 参数 中 设置 AI_PASSIVE 选项 ， 这 就 显 式 地 声明 了 可 以 接收 
来 自任 何 地 址 的 连接 。 

服务 器 端 套 接 字 用 bind 系统 调用 代替 connect 系统 调用 。connect 发 出 的 是 “进行 连接 ” 
的 指令 ， 而 bind 则 表示 “等 待 连接 ”。 

TE bind 之 后 调用 的 是 1isten 系统 调用 。1isten 的 参数 是 等 待 队列 的 长 度 ， 以 前 有 人 告诉 
过 我 要 先 把 listen 的 参数 设 为 5， 所 以 这 次 我 把 参数 设 为 了 5。 不 过 这 是 20 多 年 前 的 说 法 了 ,也 
没什么 根据 ， 在 现在 的 大 流量 环境 中 ,设置 为 更 大 的 数值 可 能 会 比较 好 。 


























任务 的 创建 





在 tcp_server 的 末尾 创建 任务 。 首 先是 分 配 任 务 需 要 的 数据 并 对 其 进行 初始 化 。 

之 后 ， 调 用 strm_task_new 也 数 创建 新 的 任务 。strm_task_new 国 数 的 参数 有 4 个 ， 分 
别 是 任务 种 类 、 任 务 函 数 、 结 束 函 数 和 任务 数据 。 任 务 种 类 是 表 4-1 的 3 种 类 型 之 一 。 由 于 这 次 的 
任务 是 “创建 ”已 accept 的 客户 端 套 接 字 ， 所 以 就 以 生产 者 的 方式 来 处 理 ， 将 种 类 设 为 strm_ 
producer, 表 4-1 任务 种 类 

任务 函数 是 执行 实际 任务 的 函数 ， 结 束 函 
数 是 任务 结束 时 被 调用 的 函数 。 这 次 指定 了 strm producer 生成 者 ( 没有 输入 ， 有 输出 ) 
server accept 和 server close 国 数 ， strm filter 加 工 者 ( 有 输入 ， 有 输出 ) 
我 会 在 后 面 对 它们 的 具体 内 容 进行 说 明 。 OS DAM o LEE UL EE 



































r3 











从 服务 器 端 套 接 字 的 accept 开始 的 处 理 均 由 server_accept K 
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函数 ( 以 及 之 后 被 调用 的 


本。 cb 函数 ) 负责 ( 图 4-6 )。 客 户 端 连 接 到 服务 器 端 套 接 字 时 ， 服 务 央 端 套 接 字 会 变 为 “等 
待 读 取 ”的 状态 。 这 时 调用 accept () 函数 ， 就 可 以 拿 到 与 客户 端 连接 的 套 接 字 。 








static void 


accept cb(strm task* task, strm value data) 


1 


struct socket data *sd - task-»data; 
struct sockaddr in writer addr; 
Socklen t writer len; 


ine Seeley 


velter len = grzgot wit erac 


Sock - accept(sd-»sock, (struct sockaddr *)&writer addr, 


se (ocs ce 0) i 
close(sock); 
if (sd-»state-»task) 
strm task close(sd-»state-»task); 
nocdeolndaucel sd sacco error: streng 


return; 


#ifdef  WIN32 


Sock - open osfhandle(sock, 0); 


#endif 








&writer len); 


strm io emit(task, strm ptr value(strm io new(sock, STRM IO READ|STRM IO 
WRITE|STRM IO FLUSH)), 


Sd-»sock, accept cb); 


Static void 


server accept(strm task* task, strm value data) 


{ 


struct socket data *sd - task-»data; 


strm io start read(task, sd-»sock, accept cb); 


图 4-6 server accept 还 


函数 
server accept 函数 会 取出 任务 数据 ， 调 用 strm io start read 函数 ， 等 待 对 套 接 





192 | 第 4 章 实现 Streem 的 对 象 





文件 描述 符 的 读 取 。 当 客户 端 套 接 字 的 连接 请 求 到 来 时 ， 调 用 被 指定 为 回调 函数 的 accept_cpb 

accept cb 因数 调用 accept 系统 调用 ， 将 得 到 的 套 接 字 封 装 到 strm_io 结构 体 ， 然 后 
行 emit， 这 样 就 把 套 接 字 传 给 ra 管道 中 的 下 一 个 任务 。 针 对 第 3 个 参数 指定 的 文件 描述 符 ， 如 
有 输入 进来 ，strm io emit 国 数 会 调用 第 4 个 参数 指定 的 回调 函数 。 这 里 把 accept_cb 本 
身 指定 为 了 回调 函数 ， 所 以 整体 上 就 形成 了 每 当 服务 器 端 套 接 字 有 输入 时 就 调用 accept_cpb 这 种 
循环 。 


医 4E 









































小 结 

















本 节 我 们 在 Streem 中 增加 了 套 接 字 通 信 功 能 。 能 够 通过 网 络 进行 通信 的 功能 扩展 了 Streem 的 
应 用 范围 。 
这 次 套 接 字 的 实现 也 是 在 mattn 先生 发 给 我 的 Pull Request 的 基础 上 完成 的 ， 非 常 感谢 他 。 


时 光 机 专栏 
欢迎 加 入 Streem 开 发 社区 
































本 节 是 2015 年 8 月 刊 中 刊登 的 内 容 ， 为 Streem 实现 了 套 接 字 通 信 功 能 。 

虽然 完成 了 网 络 通信 的 开发 ， 但 本 节 的 重点 并 不 是 套 接 字 的 使 用 方法 ， 而 是 Streem 是 如 

何 实现 套 接 字 的 。 因 此 我 觉得 本 节 的 内 容 对 学 习 套 接 字 编 程 来 说 帮助 不 大 ， 尽 管 我 在 写 稿子 的 

时 候 觉 得 讲解 部 分 写 得 还 不 错 。 
不 过 ,今后 当 有 人 向 Streem 添加 功能 时 ， 本 节 内 容 可 以 在 Streem 的 C API 8518 FH 71 ff 

为 他 们 提供 参考 。 如 果 今 后 有 人 积极 参与 Streem 的 开发 那 就 太 好 了 。 大 家 在 社区 中 互相 协作 

一 起 开发 才 是 开源 软件 开发 的 乐趣 所 在 ， 才 是 最 有 意思 的 事情 。 













































































































































































4 2 基本 数据 结构 


数据 结构 在 编程 中 非常 重要 。 编 程 语言 通过 预 置 几 种 数据 结构 来 为 用 户 提供 编程 上 的 




































































支持 。 本 节 我 们 将 看 一 下 各 种 编程 语言 的 数据 结构 ， 然 后 探讨 一 下 Streem 的 数据 结构 


该 如 何 设计 。 























绝 大 多 数 编程 语言 拥有 内 置 的 数据 结构 。 这 里 所 说 的 内 置 是 指 预 置 在 语言 ( 处理 带 ) 中 ,不 用 
加 载 库 等 就 可 以 使 用 。 

内 置 什么 样 的 数据 结构 ， 取 决 于 语言 设计 者 和 语言 处 理 器 的 开发 者 ， 他 们 的 决定 会 强烈 反映 出 
语言 的 特性 。 本 节 我 们 将 看 一 下 各 个 语言 内 置 的 数据 结构 ， 以 及 语言 设计 者 是 如 何 进行 设计 的 。 之 
后 再 探讨 Streem 的 内 置 数据 结构 应 该 如 何 设 计 。 












































m C 的 基本 数据 结构 


首先 来 看 一 下 C 的 基本 数据 结构 。 之 所 以 选择 介绍 C， 首 先是 因为 C (和 C++ ) 的 基本 数据 结 
构 与 很 多 语言 有 很 大 的 不 同 ， 非 常 有 特色 ， 其 次 是 因为 负责 解说 的 我 使 用 时 间 最 长 的 语言 就 是 C。 
C 的 基本 数据 结构 如 表 4-2 所 示 ， 大 体 上 可 分 为 4 组 。 














表 4-2 C 的 基本 数据 结构 





char 整数 字符 ( 8 位 整数 ) 整数 
short 整数 短 整 数 整数 
int 整数 整数 整数 
long 整数 长 整数 整数 
long long 整数 长 长 整数 整数 
enum 枚 举 型 实际 上 是 整数 整数 
float 浮 点 数 单 精度 浮 点 数 
double 浮 点 数 双 精 度 浮 点 数 
id ETT 实际 上 是 地 址 地 址 
[1 数组 实际 上 是 地 址 地 址 
struct 结构 体 - 结构 体 
union 联合 体 s 结构 体 
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第 1 组 是 整数 。C 的 整数 涵盖 了 各 种 大 小 。C 没有 固定 整数 的 大 小 ， 只 是 像 下 面 这 样 规定 了 各 
种 类 型 的 大 小 关系 。 











char x short x int x long x long long 





据说 以 前 出 现 过 把 所 有 整数 类 型 的 大 小 都 固定 ” 表 4-3 C 的 整数 的 大 小 


为 64 位 的 特殊 的 计算 机 。 表 4-3 展示 了 现在 广泛 使 

















用 的 计算 机 ( 和 操作 系统 ) 中 常见 的 组 合 形式 ， 架 “| 通 二 8 8 8 
构 分 为 32 位 和 64 位，64 位 中 又 包含 了 两 种 类 型 。 short 16 16 16 
整数 组 中 有 一 个 像 是 “附带 品 ” 一 样 的 枚 举 型 int 32 32 32 
enum。 它 是 表示 “名 称 ”的 数据 类 型 ， 但 实际 上 dens 2 e 
是 整数 long long 7 64 64 


可 以 用 指针 进行 运算 





第 2 组 是 浮 点 数 。 虽 然 C 标准 中 没有 规定 ， 但 现在 大 多 数 计算 机 采用 了 IEEE754 规格 的 浮 点 
数 格式 ， 单 精度 是 32 位 ， 双 精度 是 64 位 。 

第 3 组 是 地 址 。 表 示 内 存 上 某 个 地 点 的 是 指针 ， 表 示 数 据 的 排列 的 是 数组 。 通 常情 况 下 ， 数 组 
] 来 分 配 内 存 ， 指 针 用 来 操作 内 存 。 如 果 把 数组 传递 到 需要 用 到 指针 的 地 方 ， 数 组 就 会 被 自动 转换 
为 指针 。 

C 的 指针 的 独特 之 处 在 于 能 够 进行 和 整数 相似 的 运算 。 指 针 与 整数 相 加 、 计 算 指 针 之 间 的 差 等 
都 是 C 程序 员 熟 悉 的 功能 ， 但 在 其 他 语言 中 并 不 多 见 。 
C 的 基本 数据 结构 的 最 后 一 组 是 结构 体 。 结 构 体 是 用 struct 定义 的 “数据 块 "。 数 组 是 同一 
种 数据 的 排列 ， 而 结构 体 则 是 任意 数据 的 排列 。 结 构 体 中 包含 的 各 个 数据 (成员 ) 都 有 名 字 。 虽 然 
在 程序 上 看 不 出 来 ,但 是 为 了 便于 内 存 访问 ， 有 时 可 能 在 数据 和 数据 之 间 进 行 填 充 ( padding )。 


























自由 转换 的 联合 体 


在 这 次 的 分 组 中 ， 联 合体 也 包含 在 了 结构 体 中 。 联 合体 用 union 定义 。union 的 定义 与 结构 体 
非常 相似 ,但 结构 体 定义 的 是 数据 的 排列 ， 而 联合 体 定义 的 是 把 同一 块 内 存 空 间 解 释 为 不 同 的 类 型 。 

联合 体 并 不 是 很 常用 ， 怒 怕 很 多 人 不 知道 它 是 用 来 做 什么 的 。 联 合体 有 很 多 用 法 ， 典 型 的 有 以 
下 3 种 。 



































eN 


保 最 大 的 内 存 空 间 
e 带 条 件 的 结构 体 定 义 
e 对 内 存 进 行 解释 的 操作 



































42 ”基本 数据 结构 | 195 








“确保 最 大 的 内 存 空 间 ” 是 指 在 有 多 种 数据 类 型 的 情况 下 ， 无 论 是 哪 一 种 数据 类 型 ， 都 确保 有 
足够 的 空间 保存 。 

比如 在 CRuby 中 ， 对 于 能 够 保存 各 种 对 象 的 数组 ， 为 了 便于 内 存 管理 ， 就 使 用 了 表示 对 象 的 
结构 体 的 联合 体 数 组 。 实 际 使 用 时 会 根据 对 象 的 类 型 ， 将 数组 元 素 的 指针 转换 ( cast， 类 型 转换 ) 
为 表示 对 象 的 结构 体 的 指针 。 

“ 带 条 件 的 结构 体 定义 ”是 指 结构 体 的 定义 根据 条 件 进 行 变 化 。 这 一 点 需要 结合 具体 的 例子 来 
理解 。 还 是 以 CRuby 为 例 。 为 了 减少 内 存 消耗 ，CRuby 的 字符 串 进行 了 各 种 优化 。 字 符 串 在 一 定 
长 度 以 下 时 在 结构 体内 部 保存 字符 囊 信 息 ， 否 则 在 男 外 分 配 的 内 存 空间 保存 字符 串 信 息 。 

也 就 是 说 ， 表 示 字 符 串 的 结构 体 (struct RString ) 的 定义 会 根据 字符 串 的 长 度 这 一 条 件 而 发 生 
变化 。 实 现 了 这 一 特性 的 struct RString 的 定义 如 图 4-7 所 示 ( 这 里 进行 了 简化 )。 
























































#define RSTRING EMBED LEN MAX ((int) ((sizeof (VALUE)*3)/sizeof (char)-1)) 
struct RString [ 





struct RBasic basic; 
union ( 
struct ( 
long len; 
char gos en 
long capa; 
} heap; 
char ary[RSTRING EMBED LEN MAX + 1]; 





) as; 


E 


4-7 struct RString 


检查 pasic.flags 的 部 分 就 可 以 得 知 内 部 是 否 保 存 了 字符 串 信 息 。 在 内 部 保存 了 字符 串 信 息 
时 访问 as .ary， 和 否则 访问 as .heap， 据 此 实现 带 条 件 的 定义 。 

最 后 一 个 用 法 “对 内 存 进行 解释 的 操作 ”是 指 不 考虑 类 型 信息 ， 直 接 访问 实际 内 存 中 的 数据 。 
CPU 保存 由 多 个 字 节 组 成 的 整数 时 的 顺序 称 为 “ 字 节 序 ”( endian )。 比 如 ,假设 构成 32 位 整数 的 
4 个 字 节 从 前 到 后 的 顺序 是 a、bp、c、d， 那 么 按照 a、pbp、c、Q 的 顺序 保存 的 方式 称 为 大 端 (big- 
endian )， 而 按照 as、c、b 、a 的 顺序 保存 的 方式 则 称 为 小 端 ( little-endian )。 

正常 情况 下 会 考虑 使 用 大 端的 方式 ， 但 实际 上 采用 小 端 方式 的 CPU 占 大 多 数 。 采 用 小 端 方式 
的 CPU 的 代表 是 Intel x86， 采 用 大 端 方式 的 CPU 的 代表 是 SPARC。 图 4-8 的 程序 使 用 联合 体 来 判 
断 运 行 中 的 CPU 的 字 节 序 "。 


















































D 这 个 程序 将 小 端 格式 之 外 的 格式 都 判定 为 大 端 格式 。 在 很 古老 的 CPU 中 还 存在 一 种 按照 bp、a、d、c 的 顺序 排列 
的 中 端 (middle-endian ) 格式 ， 所 以 严格 来 说 该 程序 的 判断 方法 是 错误 的 。 不 过 既然 现在 连 大 端 格式 都 要 消失 了 ， 
我 觉得 也 不 用 在 意 这 个 问题 。 
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从 数据 结构 看 C 的 特点 
#include <stdio.h> 


上 面 我 们 大 致 了 解 了 C 的 基本 数据 结构 ， 大 家 有 发  #include <stdint.h> 
现 什 么 吗 ? qut 

C 的 基本 数据 结构 的 其 中 一 个 特点 是 表示 整数 的 类 型 little endianO 
覆盖 了 从 1 字 节 (8 位 ) 到 8 字 节 (64 位 ) 的 各 种 大 小 ， { 































































































而 且 同 一 种 大 小 的 类 型 又 包括 有 符号 数 和 无 符号 数 两 种 。 “正确 地 匹配 大 小 
另 一 个 特点 是 之 前 介绍 过 的 允许 对 指针 (地址 ) 进行 与 整 TdifHichar, int 
数 相同 的 运算 。 而 使 用 uint32 七 (32 位) ， 
包含 这 些 特点 在 内 ，C 的 基本 数据 结构 直接 反映 了 pu up 
CPU 的 功能 。 大 多 数 CPU 具备 进行 各 种 大 小 的 整数 的 运 uint8 t c[4]; 
算 的 指令 ， 也 具备 处 理 浮 点 数 的 功能 。 ET 
对 (大 多 数 CPU 来 说 ， 数 据 是 没有 类 型 的 ， 需 要 根 S 
u.d3 2 0xa0b0cOdO0: 
据 使 的 指令 来 丰 定数 据 ( 字 节 或 者 字 节 序列 ) 的 含义 。 return u.c[0] ss 0xd0; 
在 CPU 看 来 ， 指 针 也 不 过 是 表示 地 址 的 整数 而 已 ,既然 } 








是 整数 ， 那 么 对 其 进行 整数 运算 也 就 没什么 稀奇 的 了 。 ko 
同样 ， 联 合体 也 不 过 是 用 来 改变 对 内 存 空间 的 解释 而 maino 


已 ， 看 上 去 复杂 的 处 理 ， 从 CPU 的 角度 考虑 则 是 再 正常 { 

Min E puts("little endian"); 
由 此 我 们 可 以 得 知 ，C 是 一 种 在 具备 一 定 程 度 的 可 移 I.S 

植 性 和 类 型 检查 功能 的 基础 上 能 够 直接 操纵 CPU 行为 的 puts("big endian"); 

return 0; 


) 












































语言 。 

在 C 语言 出 现 之 前 ， 人 们 需要 用 汇编 语言 为 各 个 硬 
件 单独 开发 操作 系统 ， 而 C 语言 的 目标 是 成 为 一 门 具有 
可 移植 性 的 高 级 语言 ,用 C 语言 编写 的 操作 系统 的 代码 
基本 上 不 用 改动 即 可 运行 在 不 同 的 硬件 上 。 这 一 特点 也 反映 在 了 它 的 基本 数据 结构 上 。 

















图 4-8 判断 字 节 序 的 程序 








m Ruby 的 基本 数据 结构 


接 下 来 看 一 下 Ruby 的 基本 数据 结构 。Ruby 内 置 的 数据 结构 要 比 C 多 得 多 ， 所 以 我 们 只 看 那些 
具有 代表 性 的 。 表 4-4 列举 了 Ruby 的 基本 数据 结构 。 

与 C 相 比 ，Ruby 隐藏 了 CPU 处 理 的 原始 的 数据 结构 ， 提 供 了 抽象 度 更 高 的 数据 结构 。 从 这 一 
点 就 可 以 看 出 两 种 语言 性 质 的 不 同 。 

Ruby 是 作为 以 文本 处 理 为 主 的 脚本 语言 诞生 的 ， 其 数据 类 型 中 包含 了 拥有 丰富 功能 的 字符 串 
和 正则 表达 式 这 一 点 就 充分 反映 了 Ruby 本 来 的 用 途 。 最 近 Ruby 常 被 认为 是 Web 应 用 的 开发 语言 



























































用 户 对 正则 表达 式 等 文本 处 理 的 要 求 
也 在 逐渐 降低 。 在 Ruby 诞生 之 后 的 
这 二 十 多 年 来 ， 它 的 使 用 方法 在 不 断 
发 生 改变 ， 这 让 我 觉得 很 有 意思 。 




















应 该 把 整数 型 合并 为 一 个 





TE Ruby 的 基本 数据 结构 中 ， 
我 认为 不 太 受 当 的 是 Fixnum 与 
Bignum 的 区 别 。 

这 两 种 数据 结构 都 是 用 来 表示 
整数 的 。Fixnum 是 能 够 表示 指针 大 
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表 4-4 Ruby 的 基本 数据 结构 ( 部 分 ) 





























Fixnum 整数 31 位 或 63 位 整数 
Bignum 整数 多 倍 长 度 的 整数 
Float 浮 点 数 只 有 双 精 度 
String 字符 串 

Regexp 正则 表达 /abc$/ 等 

Array 数组 

Hash BZ! 也 称 为 关联 数组 
Range 3G EE 228 

Proc 闭 包 也 称 为 代码 块 
Object 对 象 竺 有 实例 变量 
Symbol 符号 表示 标识 符 的 类 型 














小 的 整数 ，Bignum 是 用 来 表示 超出 Fixnum 范围 的 整数 。 在 实现 上 ，Fixnum 是 直接 保存 在 引用 





(指针 ) 中 的 整数 ， 优 点 是 不 





























] 进 行 对 象 分 配 ， 从 而 节省 内 存 。 而 Bignum 是 在 堆 中 分 配 的 对 象 ， 








虽然 多 占用 了 一 些 内 存 ， 但 是 能 够 表示 的 整数 范围 没有 限制 (图 4-9 )。 




















Rubyf& ( 引用 ) 
[1234567|0 


标志 位 


指针 值 























Fixnum 值 















































接 保 存在 了 里 面 。 末 尾 位 被 当 作 标志 位 使 用 ， 用 来 进行 区 别 


























[1234567|1] 



































标志 位 
整数 值 
Bignum 是 对 象 ， 用 指向 堆 内 地 址 的 指针 表示 
[1234567|0] 
标志 位 


[Bignum 对 象 ] 


图 4-9 Fixnum 和 Bignum 


Ruby 的 值 是 用 C 的 指针 实现 的 。 大 部 分 操作 系统 的 指针 值 是 4 或 8 的 倍数 ， 所 以 末尾 2、3 位 是 0。 末 尾 位 用 作 标 志 位 ， 等 于 0 时 


为 指针 
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CRuby 就 是 用 带 标签 的 指针 实现 了 Ruby 的 各 种 数据 类 型 。 一 般 的 对 象 用 在 堆 中 分 配 的 结构 体 
实现 ， 值 就 是 结构 体 的 指针 。 不 过 在 实现 了 CRuby 的 C 语言 中 ， 作 为 指针 使 用 的 地 址 可 以 和 整数 
相互 转换 。CRuby 就 利用 了 这 一 特性 ， 把 小 的 整数 直接 保存 在 了 指针 值 里 。 

具体 来 说 ， 因 为 CPU 内 存 访问 的 关系 ， 指 针 值 是 4 或 8 的 倍数 ， 转 换 为 整数 时 末尾 的 2、3 位 
一 定 是 0。 利 用 这 一 特性 ， 把 最 后 一 位 当成 标志 位 使 用 ， 并 用 其 余 位 保存 整数 值 。 这 样 一 来 ， 比 指 
针 的 长 度 少 一 位 的 整数 (32 位 架构 的 话 是 31 位 ，64 位 架构 的 话 则 是 63 位 ) 就 会 作为 Fixnum 直 
接 保存 在 指针 值 里 。 

对 于 超过 Fixnum 范围 的 整数 ， 则 在 堆 中 分 配 Bignum 对 象 ， 把 整数 保存 在 这 个 对 象 中 。 

严格 来 说 ，Bignum 可 以 表示 所 有 长 度 的 整数 ， 但 如 果 运 算 结 果 在 Fixnum 的 范围 之 内 ， 则 会 
自动 转换 为 Fixnum， 这 就 形成 了 根据 值 的 范围 使 用 不 同 的 数据 类 型 进行 保存 的 形式 。 

从 含义 上 来 说 ,不 管 是 Fixnum 还 是 Bignum， 它 们 表示 的 都 是 整数 。 只 是 由 于 实现 的 不 同 ， 
在 某 个 范围 内 的 整数 用 Fixnum 表示 ， 而 超过 这 个 范围 的 整数 则 用 Bignum 表示 。 

像 这 种 整数 用 两 种 类 型 表示 的 方式 早 在 Lisp 中 就 实现 了 ， 所 以 包括 类 名 在 内 ，Ruby 都 是 从 
Lisp 那里 继承 的 。 根 据 实现 的 不 同 对 整数 进行 分 类 ， 对 语言 的 开发 者 来 说 非常 重要 ， 但 对 语言 的 使 
用 者 来 说 就 没 那么 重要 了 。 不 重要 的 区 别 却 影响 了 语法 ， 这 就 不 大 好 了 。 































































































浮 点 数 也 是 一 种 数据 类 型 


比如 Ruby 2.0 中 进行 了 优化 ,在 64 位 架构 的 机 器 上 像 Fixnum 一 样 把 一 定 范围 内 的 Float 
值 保 存在 指针 值 里 。 因 此 ， 即 便 同 是 Float 类 ， 也 会 分 为 保存 在 指针 值 内 的 值 和 在 堆 中 分 配 的 对 
象 这 两 种 ,但 是 这 个 区 别 是 在 内 部 进行 处 理 的 ， 用 户 不 需要 关心 这 个 问题 。 现 在 想 想 ，Fixnum 和 
Bignum 也 应 该 像 Float 一 样 ， 只 准备 一 个 表示 整数 的 类 ， 在 内 部 进行 切换 ， 不 让 用 户 看 到 。 

抽象 度 更 高 的 Lua 等 语言 甚至 没有 对 整数 和 浮 点 数 加 以 区 分 ， 只 用 Number 这 一 种 类 型 来 表 
示 。 考 虑 到 浮 点 数 存在 误差 的 问题 ， 我 也 犹 丈 过 是 否 不 对 二 者 加 以 区 分 ， 不 过 这 也 不 失 为 一 个 改善 
的 方向 。 

另外 ， 我 也 重新 审视 了 从 Lisp 继承 来 的 符号 。 在 2-6 节 提 到 过 ， 区 分 使 用 符号 和 字符 串 的 做 法 
现在 已 经 过 时 了 。 符 号 和 字符 串 在 性 能 和 实现 方面 都 很 相似 ， 却 使 用 了 不 同 的 数据 结构 ， 这 并 不 是 
现在 这 个 年 代 提倡 的 做 法 。 

这 种 能 运行 就 尽量 不 进行 区 分 的 做 法 是 Ruby 的 一 个 设计 思想 ， 也 称 为 “大 类 主义 ”。 






















































































OCaml 的 基本 数据 结构 


当然 也 有 提倡 区 分 使 用 的 语言 ，OCaml 就 是 其 中 之 一 。OCaml 是 有 名 的 函数 式 语 言 ， 由 于 其 
开发 效率 高 ， 性 能 较 好 ， 所 以 最 近 被 欧美 一 些 国家 的 金融 行业 采用 。OCaml 和 Haskell 同 为 函数 式 
语言 ， 虽 然 二 者 在 静态 类 型 和 强大 的 类 型 推导 能 力 方面 很 相似 ,但 OCaml 不 会 自动 延迟 计算 ,在 
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需要 时 也 可 以 执行 有 副作用 的 操作 ， 从 这 些 方面 来 看 ， 可 以 说 OCaml 更 加 灵活 。 
比 起 Haskell， 我 个 人 更 喜欢 OCaml， 这 并 不 是 说 OCaml 更 加 出 色 ， 只 是 我 个 人 的 喜好 而 已 。 
OCaml 与 Ruby 正好 相反 ， 提 倡 区 分 使 用 ， 所 以 提供 了 多 种 类 似 的 数据 结构 (R 4-5 )。 

















R 4-5 OCaml 的 类 似 的 数据 结构 


"m. Tise 链表 线性 链表 
Ue ETES 数组 时 间 复 杂 度 O(1)， 可 以 修改 
ia $ ia T4 (tuple ) 由 多 个 值 组 成 的 数据 结构 
(name: 'a) 记录 ( record ) 相当 于 结构 体 
OCaml 的 链表 如 下 所 示 。 
[ 值 ; 值 ] 


在 链表 开头 添加 值 时 ， 使 用 运算 符 “: :”。 





DET 2] 
= 














链表 是 由 名 为 线性 链表 的 数据 结构 实现 
的 。 访 问 元 素 的 时 间 与 链表 的 长 度 成 正比 ， [可 











在 链表 开头 添加 新 元 素 只 需 花 费 很 小 的 开销 12 1 5m (21 > NULL 
就 能 实现 ( 图 4-10 )。 该 链表 连接 了 有 值 的 单元 























而 数组 是 值 的 序列 。 访 问 数组 的 第 n 个 元 
素 时 ， 时 间 是 固定 的 ,与 n 的 大 小 无 关 。 不 0 [121 
过 在 向 数组 添加 元 素 时 ， 需 要 复制 整个 数组 。 BOE aree diac NU 

与 没有 显 式 的 类 型 声明 的 Ruby 等 语言 不 国生 ii 
同 ， 在 静态 类 型 语言 OCaml 中 ， 数 组 和 链表 
的 全 部 元 素 在 编译 时 都 需要 有 指定 好 的 共同 
的 类 型 。 这 是 为 了 能 够 在 元 组 ( 以 及 记录 ) 中 存放 多 种 类 型 的 值 。 简 单 来 说 ， 把 各 种 类 型 的 值 集中 
在 一 起 的 是 元 组 ， 为 每 个 值 赋予 名 称 的 是 记录 。 

根据 访问 开销 和 类 型 区 分 使 用 数据 类 型 ， 可 以 说 是 OCaml 独 有 的 风格 。 虽 然 与 Ruby 的 大 类 主 
义 不 同 ,但 也 不 失 为 一 种 利用 静态 类 型 的 优势 编写 高 效 代 码 的 做 法 。 男 外 ， 想 到 OCaml 诞生 的 时 
期 (1996 年 ， 其 前 身 Caml 是 1985 年 )， 就 能 明白 为 什么 OCaml 是 这 种 风格 了 。 







































































4-10 OCaml 的 链表 
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m Streem 的 基本 数据 结构 


看 完了 其 他 语言 的 基本 数据 结构 ， 下 面 我 们 就 来 思考 一 下 Streem 的 基本 数据 结构 。 

首先 是 数 。Streem 并 不 是 作为 系统 编程 语言 设计 的 ， 所 以 没有 必要 像 C 一 样 直接 处 理 CPU 
操作 的 各 种 大 小 的 整数 。 不 考虑 区 分 使 用 ， 积 极地 进行 整合 反而 会 比较 好 。 因 此 ， 所 有 数 都 
Number 类 型 表示 ， 在 内 部 将 整数 和 浮 点 数 分 开 ， 以 提升 性 能 。 

虽然 C 语言 把 字符 串 当 作 字 符 型 (8 位 整数 ) 的 数组 进行 处 理 ， 但 在 Streem 中 ， 字 符 串 是 一 种 
非常 重要 的 数据 类 型 ， 所 以 它 和 了 Ruby 一 样 引入 了 专用 的 字符 串 类 型 。Streem 也 会 ( 在 今后 阶段 性 
地 ) 实现 与 Ruby 相同 的 字符 串 操 作 的 方法 ， 但 是 Streem 受 函 数 式 语 言 的 影响 比较 大 ， 字 符 串 类 型 
是 不 可 变 的 ， 所 以 不 提供 修改 字符 串 的 功能 。 前 面 也 说 过 ， 不 区 分 使 用 符号 和 字符 串 ， 在 内 部 把 注 
册 到 专用 表 的 字符 串 当 作 符 号 使 用 。 

令 人 烦恼 的 是 数组 。Ruby 提供 了 数组 、 散 列 和 对 象 等 将 多 个 值 集合 在 一 起 的 数据 结构 。 
OCaml 提供 了 更 多 的 数据 结构 。 当 然 ， 这 些 数据 结构 都 是 根据 不 同 的 使 用 场景 来 区 分 使 用 的 ， 但 是 
从 其 他 语言 的 情况 来 看 ， 我 希望 Streem 可 以 尽量 不 要 让 用 户 自己 去 区 分 使 用 不 同 的 数据 结构 。 
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Streem 不 需要 链表 





将 多 个 值 集合 在 一 起 的 数据 结构 包括 根据 访问 模式 区 分 的 数据 结构 (通过 整数 索引 访问 的 数组 
和 把 名 称 作为 键 的 散 列 )、 根 据 访问 开销 区 分 的 数据 结构 ( O(n) 的 链表 和 O(1) 的 数组 、 散 列 ) 和 根 
据 类 型 区 分 的 数据 结构 ( 单一 类 型 的 链表 、 数 组 和 拥有 多 个 类 型 的 元 组 ) CA 4-6 )。 
































表 4-6 拥有 多 个 值 的 数据 结构 
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Oln) 在 开头 添加 元 素 的 访问 开销 为 0(1) 
"s O(1) = 在 添加 元 素 时 由 于 需要 复制 ， 所 以 此 时 的 开销 为 O(n 
散 列 O(1) 单一 以 存在 副作用 为 前 提 的 数据 结构 
记录 ol) 多 个 相当 于 结构 体 ( Ruby 中 是 对 象 ) 
元 组 O(1) 多 个 内 部 用 数组 实现 
那么 ， 尽 量 避 免 进 行 区 分 使 用 的 Streem 应 该 采用 哪 种 数据 结构 呢 ? 























首先 不 需要 采 j 的 就 是 散 列 。 仔 细 想 想 ， 如 果 不 需要 修改 数据 ， 散 列 这 种 数据 结构 也 就 没什么 
用 ， 所 以 原则 上 不 会 产生 副作用 的 Streem 不 需要 使 用 散 列 。Streem 通过 给 元 素 添 加 标签 的 功能 
代替 散 列 ， 带 标签 的 数组 也 可 以 代替 记录 (Ruby 中 的 对 象 )。 

还 有 就 是 数组 和 链表 的 区 别 。 虽 然 数组 和 链表 在 拥有 多 个 值 这 一 点 上 起 到 的 作用 相同 ， 但 由 于 
内 部 实现 不 同 ， 所 以 访问 开销 也 不 同 。 既 然 Streem 的 设计 方针 是 避免 因 实现 的 不 同 而 要 求 用 户 使 










































































(D 静态 语言 的 情况 。 
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用 不 同 的 数据 结构 ， 所 以 我 也 就 不 想 保留 这 个 区 别 了 。 

可 行 的 设计 方案 有 两 个 : 一 个 是 放弃 其 中 一 个 ， 把 数据 结构 统一 为 一 种 ; 另 一 个 是 在 内 部 分 为 
两 种 数据 结构 ， 尽 量 向 用 户 隐 藏 内 部 实现 。 

这 里 我 们 看 看 Ruby 的 做 法 。Ruby 除了 在 开发 最 开始 的 阶段 (公布 之 前 ) 以 外 ， 都 只 提供 了 数 
组 ， 没 有 提供 链表 类 型 ， 但 我 还 没有 听 说 过 Ruby 因为 没有 链表 而 运行 开销 变 得 很 大 之 类 的 事情 。 
JR Ruby 过 去 发 生 过 访问 开销 过 大 的 问题 ,但 都 没有 发 展 到 很 严重 的 地 步 。 

之 前 我 觉得 将 来 或 许 会 用 到 链表 ， 所 以 就 着 手 去 实现 了 Streem 的 链表 。 不 过 经 过 这 次 的 探讨 ， 
我 得 出 的 结论 是 没有 必要 引入 链表 ， 因 此 还 需要 整理 链表 相关 的 代码 ， 以 保持 源 代码 的 整洁 。 



































Streem 的 其 他 数据 结构 


前 面 讲 了 数值 、 字 符 串 和 数组 的 相关 内 容 ， 除 了 这 些 之 外 ，Streem 还 有 布尔 值 、 闭 包 、LO 以 
及 任务 等 数据 结构 。 今 后 可 能 也 会 根据 需要 去 增加 相应 的 数据 结构 ， 但 不 论 怎样 ， 我 都 想 要 彻底 贯 
彻 之 前 提 到 的 方针 ， 尽 可 能 不 进行 区 分 使 用 ， 一 种 用 途 只 对 应 一 种 数据 结构 ( 类 型 )。 






































本 节 修 改 的 地 方 


本 节 主 要 对 数据 结构 进行 了 探讨 ， 并 没有 怎么 修改 Streem 语言 处 理 器 的 代码 。 
修改 的 地 方 有 统一 整数 和 浮 点 数 、 整 理 未 开发 完成 的 链表 的 代码 、 优 化 数组 内 容 的 字符 串 显 示 
等 。 本 节 对 应 的 源 代 码 的 标签 是 201510。 











小 结 





本 节 试 着 从 语言 内 置 的 基本 数据 结构 的 角度 对 语言 的 特性 进行 了 解读 。C 和 Ruby 的 基本 数据 
结构 直接 反映 了 各 自 的 设计 初衷 ， 这 一 点 很 有 趣 。 另 外 ， 我 们 也 得 出 了 对 语言 中 的 基本 数据 结构 少 
做 区 分 为 好 的 结论 。 

在 该 结论 的 基础 上 ， 我 重新 审视 了 Streem 的 基本 数据 结构 ， 使 Streem 离 易 于 使 用 的 语言 更 近 
了 一 步 。 今 后 我 也 会 不 断 改善 Streem。 
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Ruby 中 也 有 错误 




















本 节 是 2015 年 10 月 刊 中 刊登 的 内 容 。 为 了 方便 说 明 ， 本 节 在 本 书 中 先 于 2015 年 9 月 刊 
的 文章 出 现 了 。 

在 本 节 中 ， 我 们 先 总 览 了 各 种 语言 ( C、Ruby 和 OCaml ) 内 置 的 基本 数据 结构 ， 然 后 在 
此 基础 上 设计 了 Streem 的 基本 数据 结构 。 

构成 编程 语言 的 元 素 中 最 引 人 注 目的 就 是 语法 ， 但 其 实 语言 的 特性 会 受到 数据 类 型 和 库 很 
大 的 影响 。 无 论语 法 多 么 优秀 ， 只 要 数据 类 型 和 库 有 所 众 缺 ， 这 门 语言 就 不 会 流传 下 来 。 

另外 ， 本 节 还 提 到 了 各 种 不 同类 型 的 语言 ( 系统 编程 语言 C、 脚 本 语言 Ruby 和 函数 式 语 
言 OCaml ) 的 基本 数据 结构 反映 了 什么 样 的 设计 思想 ， 也 许 能 为 大 家 在 设计 语言 时 提供 参考 。 

这 节 还 介绍 了 Ruby 的 Fixnum 和 Bignum 的 区 别 。Ruby 2.4 ( 本 专栏 执笔 时 还 没有 发 
布 ) 在 2016 年 12 月 发 布 这 一 版 本 终于 把 Fixnum 和 J 7j Integer ar 
12 Ruby 这 种 被 全 世界 广泛 使 用 的 语言 需要 考虑 兼容 性 的 问题 ， 所 以 即使 过 去 的 设计 中 有 “ 错 
误 "， 也 不 能 轻易 修改 。 不 过 这 次 统一 为 Integer 的 过 程 还 算 比 较 顺 利 。 




























































































































































































4. 对 象 表示 与 NaN Boxing 


本 节 将 介绍 一 下 改善 语言 处 理 器 的 数据 类 型 的 技术 ， 并 参考 名 为 V7 的 JavaScript 处 理 
器 来 实现 NaN Boxing 技 术 。 








一 个 偶然 的 机 会 ， 我 得 知 了 有 名 为 V7 JavaScrip 
Chrome 内 置 的 JavaScript 语言 处 理 器 (并 且 成 为 了 node. 








t 语 言 处 理 器 。 我 们 都 知道 V8 是 Google 
js 的 核心 ), 但 是 V7 还 是 第 一 次 听 说 。 我 





查 了 一 下 ， 原 来 V7 是 能 入 式 的 小 型 JavaScript 处 理 器 ( 它 的 实现 只 有 一 个 文件 ， 有 17 000 行 左 


右 )， 据 说 运行 速度 很 快 ( 它 的 目标 是 成 为 没有 JIT BAT 





LE 如 中 最 快 的 一 个 )。 


我 对 弄 清 楚 语言 处 理 需 的 实现 很 感 兴趣 ， 所 以 花 了 点 时 间 研 究 了 一 下 。 这 个 语言 处 理 器 的 很 多 








实现 都 很 有 趣 ， 其 中 最 吸引 我 的 是 对 象 表示 的 实现 。V7 使 用 了 一 项 被 称 为 NaN Boxing 的 技术 ， 虽 
然 mruby 也 可 以 通过 编译 选项 实现 这 一 技术 ,但 是 V7 中 的 实现 更 加 简练 。 看 来 我 还 需要 再 深入 研 




















究 一 下 。 


洁净 室 设计 





V7 采用 了 GPL2 和 商用 双 许 可 证 。 这 就 表示 ， 当 使 用 GPL2 许可 证 不 能 满足 需要 时 ， 就 需要 联 











系 作者 , (有偿 ) 获取 商用 许可 证 。 采 用 双 许 可 证 的 目的 
果 ， 这 一 点 我 们 可 以 理解 。 在 V7 所 在 的 嵌入 式 领域 ， 
部 分 人 (企业 ) 会 去 购买 商用 许可 证 。 











是 ， 既 想 开源 ， 又 不 想 被 人 白白 窃取 劳动 
为 避免 陷入 许可 证 方面 的 纠纷 ， 有 相当 一 


但 我 们 这 次 不 是 要 在 Streem 中 实现 V7， 而 是 要 把 它 当 成 Streem 的 一 个 参考 ， 所 以 我 不 打算 去 

















购买 商用 许可 证 。 可 GPL2 与 Streem 的 MIT 许可 证 相 冲 突 ， 这 就 导致 无 法 直接 复制 代码 。 


























所 以 我 决定 使 用 ( 冒牌 的 ) 洁净 室 设计 进 行 开 发 。 洁 净 室 设计 是 软件 反 向 工程 的 一 种 手法 ， 通 











过 隔离 解析 团队 和 实现 团队 ， 在 不 侵犯 著作 权 或 泄露 企业 机 密 的 前 提 下 重新 进行 实现 。 这 次 为 了 
避免 使 用 GPL 保护 的 代码 ， 我 将 一 边 解析 V7 的 源 代码 一 边 进 行 讲解 ， 然 后 根据 这 些 信息 来 开发 





Streem。 不 过 ， 因 为 所 有 的 工作 都 是 我 一 个 人 完成 的 ， 所 以 不 可 能 实现 完全 的 隔离 ， 这 也 只 不 过 是 


冒牌 的 洁净 室 设 计 而 已 。 


引用 的 表示 方法 











首先 来 介绍 一 下 V7 和 Streem 这 样 的 语言 处 理 絮 是 如 何 表示 对 和 象 的 。 
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CPython (用 C 实现 的 Python ) 等 语言 处 理 器 用 指向 结构 体 的 指针 表示 对 象 的 引用 。 这 种 单纯 











使 用 指针 的 做 法 在 访问 结构 体 时 速度 最 快 ， 而 且 








还 不 会 浪费 内 存 。 但 这 种 做 法 有 一 个 问题 ， 那 就 是 


即使 是 整数 这 种 频繁 使 用 的 值 ， 也 需要 分 配 到 结构 体 ， 这 就 导致 大 量 对 象 被 分 配 。 





Tagged Pointer 方法 可 以 有 效 改善 这 一 问题 。 该 方法 利 





2-3 位 永远 为 0 的 特点 〈 在 很 多 操作 系统 中 
已 实现 )。 在 这 几 位 中 塞 人 类 型 信息 ， 把 整数 
等 部 分 类 型 的 值 直接 放 在 指针 里 (图 4-11 )。 
Emacs Lisp 和 CRuby 等 语言 处 理 器 就 采用 了 
这 种 方法 。 

Tagged Pointer 方法 与 仅 使 用 指针 的 方法 在 
内 存 使 用 率 上 相同 ， 通 过 把 整数 和 布尔 值 等 频 
繁 出 现 的 值 塞 入 指针， 进一步 提高 了 整体 的 内 
存 使 用 率 。 昌 然 从 指针 中 拿 出 这 些 值 时 需要 进 
行 一 些 位 运算 , 但 这 点 开销 微不足道 。 






























































现在 的 Streem 用 结构 体 来 表示 对 象 


mruby (默认 )、Streem 和 Lua 等 语言 使 用 
结构 体 表示 对 象 的 引用 。 目 前 Streem 准备 了 
strm value 这 种 类 型 ， 它 实际 上 是 一 个 结构 
体 ， 定 义 如 图 4-12 所 示 。 这 个 结构 体 可 以 保存 
指针 、 整 数 和 浮 点 数 。 顺 便 说 一 下 ，C 语言 的 
union 可 以 把 多 种 类 型 保存 在 一 个 字段 中 。 

使 用 结构 体 方 法 最 大 的 好 处 就 是 实现 比 
较 简 单 ， 可 移植 性 较 强 。 结 构 体 方法 〈 与 单 
纯 使 用 指针 的 方法 相同 ) 对 CPU 和 操作 系统 
没有 任何 要 求 ， 只 要 是 提供 了 C 编译 器 的 环 



































uu 
































j 了 在 将 指针 转换 为 整数 时 ， 最 后 的 























指针 按 位 表示 Ex 

[...0000 0000] > false 

[...0000 0100] È nil 

[...0000 0010] =; true 

[...0000 0110] = undef 

[...xxxx xxx1] — 整数 

[...xxxx x000] > 普通 的 指针 

( 8 字 节 对 齐 ) 

图 4-11 Tagged Pointer 方 法 ( 以 Ruby 为 例 ) 


typedef struct { 


enum strm value type type; 
union { 

liem] air 

void *p; 

double f; 


) val; 


) strm value; 


图 4-12 ”表示 对 象 引 用 的 strm value 的 定义 


境 就 可 以 ， 而 且 这 种 方法 还 避免 了 单纯 使 用 指针 的 方法 中 大 量 分 配 整数 对 象 的 问题 。 

这 种 方法 的 缺点 是 内 存 使 用 率 不 高 。mruby 中 的 mrb_value 结构 体 在 64 位 CPU 中 的 大 小 是 
16 字 节 ,在 32 位 CPU 中 的 大 小 是 12 字 节 。 而 如 果 使 用 指针 来 表示 对 象 , 在 64 位 CPU 中 的 大 小 
就 是 8 字 节 , 在 32 位 CPU 中 就 是 4 字 节 。 很 明显 ， 使 用 这 种 方法 会 浪费 掉 一 部 分 内 存 。 除 了 实现 
简单 和 可 移植 性 强 之 外 ， 该 方法 没有 其 他 优点 。 不 过 在 某 些 实现 上 ， 比 如 目标 是 在 包括 蔡 入 式 在 内 











的 所 有 平台 上 都 能 移植 的 mruby 的 实现 ， 可 移植 性 











表示 对 象 的 最 后 一 个 方法 是 V7 使 
表示 对 象 。 


























BE 就 是 一 个 不 可 缺少 的 条 件 。 
的 NaN Boxing。 该 技术 利 








j 浮 点 数 的 结构 ， 用 64 位 大 小 
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IEEE 754 


C 标准 没有 对 浮 点 数 的 表示 进行 任何 规定 ， 不 过 现在 基本 上 所 有 的 计算 机 都 采用 了 IEEE 754 
标准 来 表示 浮 点 数 。 据 我 所 知 有 一 种 叫 VAX 的 计算 机 没有 采用 IEEE 754 标准 ， 不 过 它 是 很 久之 前 
的 机 器 了 ， 佑 计 现 在 已 经 没有 人 使 用 。 男 外 ， 我 听 说 有 些 很 老 的 大 型 机 用 的 也 是 自己 独 有 的 浮 点 数 
格式 。 

接 下 来 要 介绍 的 NaN Boxing 是 使 用 (或 者 说 滥用 ) IEEE 754 格式 实现 的 。 首 先 我 们 从 格式 
看 起 。 

IEEE 754 定义 的 浮 点 数 根据 精度 的 不 同 可 以 分 为 多 种 类 型 ( 表 4-7 )。 各 种 类 型 的 构造 基本 相 
同 ， 只 有 保存 数据 的 字 节 大 小 不 同 。 这 里 重点 解说 一 下 NaN Boxing 中 使 用 的 double。 






































表 4-7 IEEE 浮 点 数 的 种 类 











符号 部 分 /指数 部 分 / 尾数 部 分 长 度 
单 精 度 float 4 字 节 1/8/23 
双 精 度 double 8 字 节 1/11/52 

Uere E long double 16 F 1/15/112 














浮 点 数 由 符号 部 分 、 指 数 部 分 和 尾数 部 分 组 成 (图 4-13 )。 从 最 高 位 开始 ， 按 照 各 部 分 的 长 度 
依次 切 分 ， 把 各 部 分 数据 按照 无 符号 整数 解释 后 得 到 的 值 作 为 a、b、c 时 ， 浮 点 数 的 含义 如 下 所 
示 (double 的 情况 )。 








指数 部 分 尾数 部 分 
(11 位 ) 52 位 ) 


[ i | 
i 
63 52 0 
图 4-13 IEEE 浮 点 数 的 格式 








CI aean Mo 0 (ey ^53.) 





这 个 式 子 的 意思 是 当 符 号 部 分 为 1 时 表示 负 ， 为 0 时 表示 正 ， 指 数 部 分 加 上 偏 移 量 1023 表示 有 符 
号 的 整数 ， 尾 数 部 分 用 二 进 制 表示 小 数 点 以 后 的 数 。 

根据 这 个 算式 ， 在 用 IEEE 754 的 double 表示 2.5 时 ， 由 于 2.5 是 正 数 ， 所 以 符号 部 分 为 0。 
按照 下 面 的 式 子 把 2.5 的 整数 部 分 转换 为 1， 这 样 尾数 就 是 1.25， 指 数 是 1。 
































sl 
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尾数 部 分 去 掉 小 数 点 左边 的 1 之 后 变 为 0.25， 用 二 进 制 进行 字 节 表示 ， 如 下 所 示 。 








01000000 ( 后 面 44 位 都 是 0 ) 




















指数 部 分 加 上 偏 移 量 1023 后 值 为 1024， 用 字 节 表示 为 


100000000000 














如 果 整 个 数 从 最 高 位 开始 按照 符号 部 分 、 指 数 部 分 和 尾数 部 分 的 顺序 排列 ， 那 么 用 十 六 进 制 表示 时 
就 是 





0x4004000000000000 





打印 这 个 值 的 程序 如 图 4-14 所 示 。 前 面 提 到 过 union 允许 按照 不 同 的 类 型 解释 位 模式 ， 这 
特性 非常 适合 用 在 这 样 的 程序 里 。 











#include <stdio.h> double f; 
finclude «stdint.h» quoe ne. ate 
) u; 
aque. iUkgaE 2 2 EE 
main () pran er (P (Dessdls Wa, rad) s 
{ return 0; 
union ( } 


El 4-14 4E IEEE 754 的 double 按照 十 六 进 制 打印 的 程序 


特殊 的 浮 点 数 


IEEE 754 标准 中 有 两 个 特殊 的 值 ”: 一 个 是 无 穷 大 ( % ), 另 一 个 是 非法 值 ( Nota Number, NaN )。 
无 穷 大 在 数学 上 表示 无 穷 大 的 值 ， 比 如 非 0 浮 点 数 除 以 0 的 结果 等 ， 有 正 负 两 个 值 。 在 IEEE 754 
标准 中 ， 无 穷 大 的 指数 部 分 是 2047， 尾 数 部 分 是 0。 正 负 则 由 符号 位 决定 。 

NaN 用 于 表示 00、o + (一 % ) 等 数学 上 没有 意义 的 计算 结果 ， 以 及 负数 的 平方 根 等 超出 实数 
范围 的 值 。 在 IEEE 754 标准 中 ，Na 的 指数 部 分 与 相同， 都 是 2047 ( 用 位 表示 为 11111111111 )， 
尾数 部 分 为 0 以 外 的 数 。 





















































中 其实 还 有 一 个 名 为 “ 非 规格 化 浮 点 数 ”( denormal number) 的 特殊 值 (组 )， 不 过 本 次 不 涉及 。 
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NaN Boxing 


利用 Nan 的 特性 ， 用 浮 点 数 来 表示 对 象 的 方式 就 是 NaN Boxing。 

前 面 说 过 ，NaN 的 指数 部 分 全 部 为 1， 尾数 部 分 为 0 以 外 的 数 ， 这 样 就 会 有 2^52 - 1 种 ,也 
就 是 450 359 962 730 495 种 位 模式 。 如 果 有 这 么 大 的 存储 空间 ， 就 可 以 存储 多 种 类 型 的 值 。 由 于 是 
向 NaN 的 空 队 塞 入 值 ， 所 以 把 这 项 技术 称 为 NaN Boxing. 

但 令 人 意外 的 是 ，V7 中 表示 对 象 的 类 型 并 不 是 浮 点 数 ， 而 是 64 位 整数 (uint64 t). x 
用 64 位 整数 表示 的 对 象 类 型 被 typedef 为 “v7_val t” 这 一 名 称 。 

不 使 用 浮 点 数 而 使 用 整数 的 原因 可 能 是 使 用 整数 更 快 。 我 没有 做 基准 测试 ， 所 以 这 只 是 我 的 
推测 而 已 。 在 将 值 作为 函数 调用 的 参数 或 返回 值 进 行 传递 时 ， 有 的 CPU 会 对 浮 点 数 进行 特殊 处 理 ， 
在 这 样 的 环境 中 ,使 用 整数 的 效率 可 能 会 更 高 。 使 用 NaN Boxing 技术 时 只 要 提供 位 模式 即 可 ， 不 
需要 用 浮 点 数 本 身 来 表示 对 象 。 

V7 把 64 位 分 成 符号 部 分 (1 位 )、 指 数 部 分 (11 位 ) 和 尾数 部 分 ( 52 位 )， 并 按照 以 下 规则 来 
解释 。 

首先 是 符号 部 分 。 包 括 V7 在 内 的 很 多 NaN Boxing 实现 中 不 使 用 符号 部 分 ，V7 中 符号 部 分 永 
远 为 1。 根据 NaN 的 规定 ， 指 数 部 分 也 全 部 是 1， 实 际 的 值 保存 在 剩余 的 52 位 中 。 

在 尾数 部 分 的 52 位 中 ， 前 面 4 位 被 作为 表示 对 象 类 型 的 标志 位 使 用 ( 表 4-8 )， 剩 余 的 48 位 
(6 字 节 ) 被 用 来 表示 各 种 对 象 。 








































































































表 4-8 V7 的 值 的 种 类 

















OBJECT Ox1111 对 象 

FOREIGN Ox1110 外 部 指针 

UNDEFINED 0x1101 JavaScript 的 undefined 
BOOLEAN 0x1100 布尔 值 

NAN 0x1011 NaN ( 浮 点 数 ) 
STRING I 0x1010 内 联 字符 串 ( 长 度 < 5 ) 
STRING 5 0x1001 内 联 字符 串 ( 长 度 = 5) 
STRING O 0x1000 字符 串 (GC 的 对 象 ) 
STRING F 0x0111 外 部 字符 串 

STRING C 0x0110 字符 串 大 型 对 象 块 
FUNCTION 0x0101 JavaScript 函数 
CFUNCTION 0x0100 C 函数 

GETSETTER 0x001 1 getter + setter 
REGEXP 0x0010 正则 表达 式 

NOVALUE 0x0001 数组 用 的 未 初始 化 的 值 


INFINITY 0x0000 无 穷 大 ( 浮 点 数 ) 
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总 的 来 说 , 在 v7_val_t 的 64 位 中 ， 符 号 部 分 + 指数 部 分 + 尾数 部 分 的 前 4 位 这 16 位 是 表 
示 对 象 类 型 的 标签 ， 剩 余 的 48 位 则 用 来 保存 其 他 想 要 表示 的 值 。 





布尔 值 的 保存 方法 


那么 具体 如 何 保存 值 呢 ? 
我 们 从 最 简单 的 布尔 值 开始 看 起 。V7 中 创 


v7 val t v7 create boolean(int v) { 











建 布尔 值 (true 或 者 false ) 的 函数 是 v7 return (!!v) | V7 TAG BOOLEAN; 
create boolean(), ， 其 定义 如 图 4-15 所 示 。 ) A !1v 在 v 非 0 时 为 1，v 等 于 0 时 为 0 


V7_TAG_BOOLEAN 是 表示 BOOLEAN ( 布 
尔 值 ) 的 标签 (符号 部 分 + 指数 部 分 + 标志 图 415 VIL create boolean 
位 )。 前面 提 到 过 保存 值 的 部 分 有 48 位 ， 这 里 就 用 来 保存 true 时 为 1、false 时 为 0 的 布尔 值 。 
假如 要 表示 Ruby 的 符号 这 种 JavaScript 中 没有 的 值 ， 也 需要 使 用 同样 的 方法 。 也 就 是 说 ， 把 
符号 对 应 的 整数 〈48 位 以 内 ) 与 它 的 标签 组 合 起 来 ， 以 此 表示 对 象 。 




















整数 的 保存 方法 


虽然 JavaScript 中 没有 整数 ( 所 有 的 数 都 用 浮 点 数 表示 )， 但 这 里 还 是 大 致 讲解 一 下 使 用 NaN 
Boxing 保存 整数 的 方法 。 既 然 表 示 类 型 的 符号 部 分 和 指数 部 分 合 起 来 有 16 位 ， 用 来 保存 值 的 有 48 
位 ， 那么 只 要 这 48 位 能 把 整数 保存 下 来 即 可 。 

最 简单 的 方法 就 是 采用 32 位 整数 。 虽 然 48 位 中 有 16 位 就 这 么 被 浪费 掉 了 ， 但 是 在 32 位 CPU 
的 时 代 ， 几 乎 所 有 的 计算 都 是 用 32 位 进行 的 ， 所 以 应 该 没有 什么 坏处 。 而 且 比 起 48 位 这 样 不 大 不 
小 的 位 数 ， 很 多 CPU 处 理 32 位 整数 的 效率 会 更 高 。 这 也 是 该 方法 的 一 个 优点 。 

另外 一 个 办 法 是 把 这 48 位 全 部 用 来 表示 整数 ,但 是 在 这 种 情况 下 就 需要 用 64 位 整数 进行 计 
jx. 需要 小 心 数据 溢出 ， 而 且 人 处 理 本 身 也 可 能 会 变 得 复杂 。 










































































浮 点 数 的 情况 


NaN Boxing 把 值 保存 在 浮 点 数 不 用 的 位 中 ， 所 以 不 需要 对 浮 点 数 进行 加 工 。 不 过 ， 由 于 表示 
浮 点 数 的 类 型 是 double， 表 示 对 象 的 是 64 位 无 符号 整数 ， 所 以 需要 进行 转换 。 做 法 与 图 4-14 相 
同 ， 将 浮 点 数 保存 到 union 之 后 ， 再 作为 整数 取出 。 























指针 的 保存 方法 


在 要 保存 的 各 种 类 型 的 值 中 ， 最 可 能 出 现 问题 的 是 指针 。 如 果 是 32 位 架构 的 系统 ,那么 指针 
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的 大 小 也 是 32 位 ， 保 存在 48 位 的 数 中 没有 任何 问题 。 但 如 果 是 64 位 架构 的 系统 ,那么 指针 的 大 
小 就 是 64 位 ， 这 样 就 超过 了 48 位 的 范围 。 

不 过 幸运 的 是 ， 大 多 数 操作 系统 没有 把 64 位 全 部 用 来 表示 指针 ， 而 是 只 使 用 了 大 约 48 位 可 以 
覆盖 的 值 。 想 想 看 ， 有 48 位 就 可 以 访问 256 TB 的 内 存 空 间 ， 所 以 目前 不 会 有 什么 问题 。 

遗憾 的 是 ， 部 分 操作 系统 (Solaris 等 ) 把 NaN Boxing 用 来 表示 标签 的 前 16 位 空间 也 用 来 表示 

虽 针 了， 所 以 不 能 在 这 些 操作 系统 上 使 用 该 技术 。 虽 然 与 过 去 不 同 ， 现 在 使 用 Solaris 的 人 越 来 越 

少 ， 所 以 也 许 不 会 存在 太 大 的 隐患 ， 但 是 NaN Boxing 最 大 的 短 板 还 是 可 移植 性 。 

如 果 指 针 也 可 以 放 进 48 位 的 范围 之 内 ， 那么 剩 下 的 操作 就 和 布尔 值 等 一 样 ， 只 需 与 标签 组 合 
起 来 放 进 NaN 中 即 可 。 
























































字符 串 的 保存 方法 


V7 在 字符 串 的 表示 上 下 了 不 少 功 夫 。 由 于 字符 串 是 频繁 使 用 的 对 象 ， 所 以 V7 细致 地 考虑 了 性 
能 问题 。 表 4-8 列举 的 16 种 值 之 中 就 有 5 种 是 字符 串 类 型 ， 由 此 可 见 一 斑 。 

首先 是 STRING_I 和 STRING_5。 由 于 有 48 位 的 空间 可 以 用 于 表示 值 ， 所 以 长 度 在 6 字 节 
范围 内 的 字符 串 可 以 直接 保存 在 NaN 值 中 。JavaScript 不 能 修改 字符 串 ， 因 此 可 以 使 用 这 种 方法 。 
Ruby 的 字符 串 是 可 以 修改 的 ， 所 以 Ruby 不 能 直接 使 用 这 种 方法 。 而 在 Streem 中 ,包括 字符 串 在 
内 的 对 象 也 是 不 可 修改 的 ， 所 以 Streem 也 能 用 这 种 方法 。 

为 了 保持 与 C 语言 字符 串 的 兼容 性 ， 必 须 在 V7 的 字符 串 末尾 带 上 NUDL (' \0')。 这 样 一 来 ， 
可 以 保存 的 最 大 字 节 数 就 是 5。 

1-4 字 节 的 字符 串 用 STRING I Xm (图 4-16a )。 在 5 字 节 的 字符 串 的 情况 下 ， 由 于 没有 空间 
保存 字 节 数 ， 所 以 用 专门 的 标签 来 表示 ( 图 4-16b )。 

在 剩余 的 3 种 字符 串 类 型 中 ，s TRING_F 是 由 外 部 赋 与 的 ， 不 受 V7 的 GC 管理 。 由 于 不 受 
GC 管理 ， 所 以 会 被 直接 作为 指针 处 理 。 

























































































(a) 1~4 字 节 的 情况 





v7_val t 
[V7. TAG. STRING _|| 长 度 | 第 1 个 字 节 | 第 2 个 字 节 | 第 3 个 字 节 | 第 4 个 字 节 |NULUI 
16 位 8 位 8 位 8 位 8 位 8 位 8 位 


(b) 5 字 节 的 情况 

v/ val t 

[V7_TAG_STRING_5| 第 1 个 字 节 | 第 2 个 字 节 | 第 3 个 字 节 | 第 4 个 字 节 | 第 5 个 字 节 |NUUI 
16 位 8 位 8 位 8 位 8 位 8 位 ”8 位 








图 4-16 ”内 联 字符 串 
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字符 串 的 GC 


STRING 0 的 O 是 owned 的 首 字 母 ， 也 就 是 说 ， 它 是 由 V7 进行 
内 存 空间 管理 的 字符 串 。 字 符 串 在 V7 管理 的 内 存 空间 中 被 分 配 。 内 [foolbarlbazlquux|…] 
存 空间 不 足 时 GC 开始 启动 ， 字 符 串 占用 的 内 存 空间 会 被 回收 。 
V7 对 字符 串 采 取 了 移动 压缩 的 方法 。 具 体 来 说 ， 字 符 串 被 回收 [foolbazl ] 
之 后 产生 了 内 存 缝隙 ， 通 过 移动 字符 串 后 面 的 值 填 满 锋 隙 ， 从 而 有 
效 地 利用 内 存 空间 ( 图 4-17), EERROR MAT BMEM 
用 (地址 ) 修改 为 移动 后 的 地 址 ， 否 则 数据 就 会 遭 到 和 毁坏。 , 
因此 ，V7 使 用 了 sTRING_C。 这 种 类 型 比较 复杂 ， 乍 一 看 不 知道 在 进行 什么 处 理 ， 我 们 通过 
图 4-18 来 看 一 下 大 致 步骤。 

























































































(1) v1、Vv2、v3 是 对 字符 串 的 引用 








v1[STRING_Oladdn v2[STRING_O]addr] v3[STRING. OJaddr] 
"foobarbaz" 























(2) 扫描 v1 的 引用 ， 将 v1 的 地 址 写 入 字符 串 前 面 的 6 字 节 






































v1[STRING_Clfoobar] v2[STRING. OJadar] v3[STRING. OJaddr] 
"(v1 addr)baz" 

















(3) 扫描 v2 的 引用 ， 建 立 从 V2 到 v1 的 链接 





























v1[STRING_Clfoobar] -«—— v2|[FOREIGN|(v1 addr)] v3[STRING. OJaddr] 


| 


"(v2 addr)baz" 

















(4) 扫 措 v3 的 引用 ， 建 立 从 v3 到 v2 的 链接 





























v1[STRING_Clfoobar] -—— v2|FOREIGN|(v1 addr)] -—  v3[STRING. OJ(v2 addr)] 


"(v3 addr)baz" 
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(5) 扫描 结束 后 ， 移 动 字符 串 ， 修 改 地 址 


























(6) 遍历 链接 修改 地 址 


v1[STRING_Oladdr2] v2[STRING. OJaddr2] v3[STRING. OJaddr2] 


| 


"foobarbaz" 


图 4-18 ”字符 串 GC 的 步骤 
首先 ,在 GC 检查 “存活 的 ”字符 串 的 标记 阶段 ， 刀 
就 进行 下 列 处 理 。 




















果 找 到 了 还 没有 被 标记 的 字符 串 的 引 


I 








uu 





V, 





中 


1. 标记 字符 串 
2. 将 字符 串 前 面 的 6 字 节 写 入 
3. 将 v 的 标签 改 为 STRING C 

4. 把 v 的 地 址 写 入 字符 串 





























发 现 已 标记 的 字符 串 的 引用 v2 时 ， 进 行 下 列 处 理 。 


1. 将 保存 在 已 标记 的 字符 串 中 的 地 址 写 入 v2 
2. 将 v2 的 标签 改 为 FOREIGN 
3. 将 v2 的 地 址 写 入 字符 串 











重复 上 述 处 理 ， 在 标记 阶段 结束 时 ， 存 活 的 字符 串 就 会 变 成 以 下 状态 。 





e 已 被 标记 
e 对 象 所 有 的 引用 都 在 一 个 链表 中 连 在 一 起 
e 链表 的 末尾 是 用 地 址 替换 的 部 分 的 字符 串 信 息 










































































我 在 读 V7 的 代码 时 ， 发 现 这 个 功能 的 代码 在 非 小 端 字 节 序 的 CPU 上 可 能 会 出 错 。 不 过 最 近 
x86 和 ARM 基本 上 都 是 小 端 格 式 的 ， 所 以 我 们 不 需要 在 意 这 个 问题 。 

之 后 就 是 重复 以 下 过 程 : 依次 扫描 字符 串 的 内 存 空间 ， 如 果 字 符 串 已 被 标记 ， 就 移动 字符 串 填 
满 内 存 颖 际 ， 遍 历 链接 修改 所 有 引用 了 字符 串 的 地 址 。 

这 个 处 理 看 上 去 非常 麻烦 ， 但 这 么 做 是 有 原因 的 。 虽 然 为 了 让 实现 更 简单 也 可 以 不 采用 移动 
压缩 等 方法 ， 直接 malloc (分 配 ) 内 存 空间 ， 使 用 完 之 后 再 进行 free ( 释放 ), 但 是 一 般 来 说 ， 
malloc 大 量 分 配 比 较 小 的 内 存 会 造成 内 存 空 间 的 浪费 。 另 外 ， 由 于 字符 串 的 地 址 比较 分 散 ， 所 以 
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工作 集 ( 访问 的 地 址 的 范围 ) 会 变 大 ， 缓 存 也 不 容易 发 挥 作 用 。 考 虑 到 运行 效率 ， 想 必 V7 的 开发 

















者 也 认为 实现 这 个 复杂 的 处 理 是 值得 的 。 





在 Streem 中 引入 NaN Boxing 








接 下 来 我 们 就 参考 前 1 











下 介绍 的 V7 的 NaN Boxing 的 ” 表 4-9 Streem 的 值 的 类 型 


实现 ， 党 试 在 Streem 中 引入 NaN Boxing。 种 类 




















首先 将 表示 对 象 的 strm_value 的 内 部 实现 由 结 ”3005 布尔 值 
构 体 替 换 为 uint64_t。 另 外 ， 为 了 表示 对 象 的 类 型 ， 2 e 
REMETEA 中 的 标签。 现在 只 有 11 种 (最 多 15  ————— 
、 P = ME TRUCT TB PEASE 
种 )， 以 后 可 能 会 根据 需要 再 进行 添加 。 二 
字符 串 使 用 了 与 V7 相同 的 技术 ,将 6 字 节 以 内 的 FOREIGN 外 部 指针 





字符 串 保 存在 strm_value 里 。Streem 本 来 就 不 需 |sTRING 了 ”| 字符 日 (1~5 字 地 ) 


要 在 末尾 放置 NUL， 所 以 能 够 最 大 程度 地 使 用 48 位 (6  srRING 6 Fg (6 字 节 


FH) 


不 过 目前 我 不 打算 引入 移动 压缩 的 方法 。 在 进行 过 [STRING EF FER ( 非 GC 管理 
基准 测试 之 后 ， 如 果 发 现 这 里 确实 是 影响 性 能 的 一 个 











素 ， 届 时 再 解决 也 不 迟 。 


GC 的 实现 








STRING O ”字符 串 ( GC 管理 ) 











C 函数 


DE 
a 
hj 
g 
a 




















到 目前 为 止 ，Streem 使 用 了 面向 C/C++ 的 Boehm Gc 库 ， 没 有 实现 自己 的 GC 功能 。 

引入 NaN Boxing 之 后 ， 就 不 能 直接 看 到 指针 的 值 了 ，Boehm GC 也 就 无 法 工作 了 ， 看 来 需要 
引入 Streem 自己 的 GC。 这 次 我 准备 了 标记 清除 法 这 一 非常 简单 的 GC 算法 ， 今 后 会 再 去 设计 开发 
能 够 发 挥 Streem 语言 特性 的 GC. 
































本 节 通 过 分 析 以 实现 高 性 能 为 目标 的 JavaScript 语言 处 理 需 V7 的 源 代码 ， 介 绍 了 表示 对 象 的 














NaN Boxing 技术 ， 我 还 把 这 项 技术 引入 到 了 Streem 中 。 读 者 自己 在 设计 语言 或 开发 语言 处 理 融 


时 ， 也 可 以 参考 这 些 知 识 。 
慰 至 极 。 




















如 果 读 者 之 中 有 人 创建 了 继 Ruby 之 后 在 全 世界 流行 的 语言 ， 那 我 将 欣 
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时 光 机 专栏 
对 GC 的 实现 干劲 不 足 








本 节 是 2016 年 1 月 刊 中 刊登 的 内 容 ， 我 们 从 小 型 JavaScript 语言 处 理 器 V7 的 代码 中 了 
fT NaN Boxing 的 实现 方法 。 在 浮 点 数 中 保存 指针 等 值 的 NaN Boxing 是 很 高 超 的 技术 ， 所 
以 即便 是 作为 NaN Boxing 实现 的 相关 资料 ， 本 节 内 容 也 是 很 有 意义 的 。 

这 里 需要 向 大 家 说 明 一 件 事 。 正 文 里 虽然 说 “我 准备 了 标记 清除 法 这 一 非常 简单 的 GC 算 
法 `， 但 实际 上 还 没有 准备 好 。 当 然 并 不 是 我 有 意 撤 谎 ， 我 在 写 稿子 的 时 候 是 想 去 完成 它 的 ， 
但 是 因为 时 间 (MFH ) 的 关系 没 能 完成 。 
以 前 在 开发 mruby 的 GC 时 ， 我 利用 无 聊 的 会 议 时 间 几 个 小 时 就 开发 好 了 ， 所 以 我 想 这 次 
也 肯定 能 够 完成 ， 无 奈 干 劲 不 足 ， 结 果 到 现在 写 这 个 专栏 时 还 没有 实现 Streem 自己 的 Gc. & 


是 不 好 意思 。 













































































































































































- 才 垃圾 回收 


在 4-3 节 ， 我 采用 NaN Boxing 技 术 改 善 了 Streem 对 象 的 表示 方法 。 随 着 这 个 技术 的 使 




















用 ， 内 存 管理 的 方法 也 需要 相应 地 进行 修改 。 借 此 机 会 我 想 介 绍 一 下 内 存 管 理 ， 特 别 
是 GC ( 垃圾 回收 ) 算法 的 相关 内 容 ， 并 研究 一 下 Streem 要 如 何 实现 GC 功能 。 





























在 Java ll Ruby 这 样 的 语言 中 ， 程 序 运行 期 间 会 创建 大 量 的 对 象 。 从 计算 机 的 角度 来 看 ， 对 象 
只 不 过 是 储存 数据 的 内 存 空 间 而 已 ， 而 编程 语言 则 把 它们 看 作对 象 。 

同 为 面向 对 象 语言 的 C++ 需要 开发 者 手动 管理 对 象 占用 的 内 存 空间 。 像 C 这 种 面向 对 象 之 前 
的 语言 也 需要 手动 内 存 管理 ， 在 这 一 点 上 它们 是 一 样 的 。 

C 使 用 malloc () 函数 直接 分 配 内 存 空 间 ，C++ EH] new 在 堆 空 间 中 分 配对 象 。 这 些 调 用 过 
程 都 要 求 操 作 系统 预先 分 配 一 块 内 存 空间 ， 然 后 系统 从 这 块 内 存 中 分 割 出 本 次 调用 所 需要 的 内 存 并 
返回 。 之 所 以 这 么 做 ， 是 因为 如 果 每 次 都 要 请 求 操 作 系统 分 配 内 存 ， 那 效率 就 太 低 了 。 

在 如 此 分 配 的 内 存 使 用 完毕 后 ， 程 序 就 会 用 free (C) 或 delete (CH) 来 告诉 系统 这 些 内 
存 已 经 不 需要 了 。 当 不 用 的 内 存 达到 一 定 值 时 ， 系 统 就 会 将 这 些 不 用 的 内 存 还 给 操作 系统 。 但 是 ， 
这 个 “已 经 不 再 使 用 ”的 状态 却 是 产生 各 种 问题 的 原因 。 










































































自动 释放 内 存 空间 


如 果 不 小 心 把 还 在 使 用 的 内 存 空间 还 回去 了 ,那么 还 回去 的 内 存 空间 在 不 久之 后 就 会 被 挪 为 他 
用 。 之 后 再 去 访问 ， 这 个 内 存 空间 中 的 数据 就 可 能 被 修改 掉 了 ， 这 就 导致 程序 不 能 正常 工作 ， 其 至 
异常 退出 。 

反之 ， 如 果 想 着 可 能 还 会 使 用 而 迟 迟 不 向 系统 归还 内 存 空 间 ， 或 者 使 用 后 忘记 归还 ， 这 种 情况 
也 会 导致 问题 发 生 。 保 留 实际 上 已 经 不 再 使 用 的 空间 会 白白 浪费 内 存 ， 甚 至 会 引发 性 能 下 降 和 异常 
退出 等 问题 。 管 理 大 量 分 配 的 零散 的 内 存 ， 本 来 就 不 是 人 擅长 的 事情 。 
自动 进行 内 存 管理 ,特别 是 内 存 释 放 的 技术 称 为 GC。GC 其 实在 很 早 以 前 就 出 现 了 。 在 20 世 
纪 60 年 代 就 有 人 研究 这 项 技术 ， 并 写 了 很 多 论文 。 虽 然 该 技术 在 大 学 研究 室 中 使 用 已 入 ,但 真正 
在 普通 开发 者 中 间 普 及 则 是 在 20 世纪 90 年 代 Java 出 现 以 后 。 在 这 之 前 ， 很 少 有 人 知道 这 项 技术 。 

GC 技术 曾经 饱 受 质 疑 。 随 着 Java 的 出 现 ， 人 们 终于 开始 关注 GC， 但 当初 很 多 人 对 这 项 技术 
持 否 定 意见 。“GC 不 可 靠 ” “分配 的 内 存 空间 应 该 由 人 来 显 式 地 释放 ”“GC 比 手动 管理 内 存 还 要 慢 ， 
不 能 使 用 ”等 意见 不 绝 于 耳 。 
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随 着 时 间 一 天 天 过 去 ，Java 得 到 了 普及 ， 这 种 声音 也 慢 慢 消失 了 。 这 是 因为 GC 技术 变 得 更 加 
先进 ,证 实 了 GC 比 人 直接 管理 内 存 出 现 的 错误 更 少 ， 在 多 数 情况 下 性 能 更 好 。 

当然 ， 目 前 GC 还 不 适用 于 舱 入 式 实时 系统 这 样 的 环境 ,但 除了 这 些 特 殊 情 况 ，GC 已 经 普遍 
应 用 在 各 种 环境 中 了 。 












































追踪 法 和 引用 计数 法 








GC 中 有 追踪 法 (trace ) 和 引用 计数 法 (reference counting) 两 大 方法 ， 这 两 种 方法 分 别 代 表 了 
两 个 极端 。 

追踪 法 是 指 从 被 称 为 根 的 起 点 开始 递归 地 遍历 ( 追踪 ) 被 引用 的 对 象 的 方法 。 追 踪 法 又 包括 一 
边 追 踪 一 边 标 记 存活 的 对 象 ， 最 后 把 没有 被 标记 的 ( 垃圾 ) 对 象 统一 回收 的 “标记 清除 法 ”， 以 及 
把 在 追踪 过 程 中 发 现 的 存活 的 对 象 复制 到 别 的 内 存 空间 ， 然 后 清除 留 在 旧 内 存 空 间 中 的 对 象 的 “ 复 
制 法 ”等 。 

追踪 法 的 优点 是 能 够 检查 出 从 根 节 点 开始 被 间接 引用 的 存活 的 对 象 。 但 反 过 来 ， 对 象 越 多 ， 
GC 所 需要 的 时 间 就 越 长 ， 这 也 是 它 的 缺点 。 




















标记 清除 法 




















标记 清除 法 是 最 早 被 开发 出 来 的 算法 。 它 的 原理 非常 简单 ， 从 根 开始 递归 地 标记 被 引用 的 对 
象 ， 然 后 把 没有 标记 的 对 象 作 为 垃圾 回收 。 
标记 清除 法 的 概要 如 图 4-19 所 示 。 


初始 状态 标记 阶段 











清除 阶段 @@ 已 标记 的 对 象 
(4) 
me NOS 


© 
图 4-19 标记 清除 法 


首先 ， 随 着 程序 的 运行 ， 对 象 被 分 配 ( 图 4-19(1) )。 有 的 对 象 会 引用 其 他 对 象 。 
GC 开始 后 ， 从 根 开始 对 被 引用 的 对 象 进行 标记 ( 图 4-19(2) )。 一 般 情 况 下 ， 标 记 多 作为 对 象 
内 部 的 标志 位 实现 。 这 里 我 们 把 已 标记 的 对 象 涂 黑 。 
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同样 也 要 对 被 标记 的 对 象 所 引用 的 对 象 进行 标记 ( 图 4-19(3) )。 
台 间 接 引 用 的 所 有 对 象 进行 标 记 ， 这 一 阶 且 


被 当 作 存 活 的 对 象 。 


依次 扫描 所 有 的 对 象 ， 
方便 下 次 回收 ， 在 扫描 的 同时 


实现 Streem 的 对 象 


ZRN < 


回收 没有 被 标记 的 对 象 








重 





E 


复 这 个 
‘标记 阶段 ”"。 标 记 阶 段 结 


( 





图 4-19(4) )， 这 一 阶 


会 清除 存活 的 对 象 的 标记 。 
还 有 一 种 名 为 “标记 压缩 ”(mark-compact ) 的 方法 ， 


它 是 标记 清除 法 


除 没有 标记 的 对 象 ， 而 是 将 存活 的 对 象 压 缩 到 一 起 。 





在 标 











象 ， 这 就 会 浪费 一 


复制 法 


记 清除 法 及 其 延伸 方法 中 ， 处 到 
比 。 当 有 大 量 对 象 被 分 配 ， 














其 中 只 


复制 法 是 以 克服 上 述 缺 点 为 目标 的 算法 。 








踢 法 把 从 根 开 





A 
的 对 象 。 





间 )， 然 后 把 从 根 开 始 被 引 


将 被 复制 的 对 象 所 引用 的 对 象 也 顺 芯 摸 瓜 式 地 复 各 
SIE 


的 对 象 全 部 移动 到 新 空间 ， 





图 4-20 复制 法 


图 4-20(1) 所 示 为 GC 开始 
接 下 来 ， 在 旧 的 对 象 所 在 的 内 存 空 





台 被 引用 的 对 象 复制 到 其 他 内 存 空 





前 内 存 的 状态 ， 与 图 





SE ( 称 为 旧 空 
j 的 对 象 复制 到 新 空间 ( 














已 死 的 对 象 则 留 在 旧 空 


旧 空 间 


新 空间 





S 





阶段 就 





过 程 ， 对 能 够 从 根 开 
束 时 ， 被 标记 的 对 象 会 





“清除 阶段 ”"。 为 了 





的 延伸 ， 该 方 ; 


EH 时 间 与 “存活 的 对 象 数 ”和 “所 有 的 对 象 数 ”之 和 成 正 
一 小 部 分 对 象 存活 时 ， 在 清除 
些 不 必要 的 时 间 。 这 也 是 该 方法 的 一 个 缺点 。 


需要 扫描 大 量 已 死 的 对 








s 间 ， 然 后 再 递归 地 复 


4-19(1) 相同 。 
s 间 ) 之 外 再 准备 一 个 新 

(图 4-20(2) )。 

b suras RI ( 











图 4-20(3 


旧 空 间 


新 空间 








制 被 复制 的 对 象 所 引用 


的 内 存 空间 ( 称 为 新 空 


). 复制 完成 后 ， 存 活 


这 时 如 果 释 放 旧 空 


扫描 单个 的 对 象 。 下 一 次 进行 Gc 
复制 法 中 不 存在 标记 清除 法 中 的 清除 阶段 。 
会 产生 相当 大 的 开销 ， 而 复制 法 则 没有 这 


从 图 4-20 可 以 看 出 ， 


大 部 分 对 象 会 马上 死去 的 情况 下 ， 标 记 清 除法 的 清除 阶段 
个 开销 。 但 是 ， 比 起 标记 对 象 ， 复 制 对 象 的 开销 会 更 大 ， 所 以 复制 法 不 适合 








的 场景 下 使 用 。 


s 间 ， 已 死 的 对 象 所 占据 的 内 存 空 


时 ， 这 个 新 空间 就 会 成 为 旧 空 间 。 























间 就 会 一 下 子 被 释放 ( 图 4-20(4) )， 
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不 需要 








在 分 配 了 大 量 对 象 旦 其 中 的 











在 存活 的 对 象 比重 较 大 








该 算法 的 另 一 个 优点 是 


系 相近 的 对 象 很 有 可 能 被 配置 到 内 存 空 


“局 部 性 ”。 复 制 法 是 按 顺 序 把 被 引 











3 间 中 临近 的 区 域 ， 


下 ， 内 存 缓存 更 容易 起 作用 ， 程 序 的 运行 效率 也 更 高 。 




















复制 法 的 缺点 是 内 存 使 








内 存 空 间 ， 这 样 就 只 


存 空 间 ， 减 少 内存 空 间 的 浪费 。 


GC 的 性 能 指标 








追踪 法 的 基本 算法 大 致 上 可 以 分 为 上 面 的 标记 清除 法 i 





还 存在 一 些 问题 。 


GC 的 性 能 可 以 用 两 个 指标 来 衡量 : 
GC 运行 时 间 是 GC 处 理 本 身 的 性 能 ， 





! 能 有 效 使 用 最 大 内 存 消 费 量 的 一 半 。 复 种 


| 的 对 象 复制 到 新 
这 被 称 为 局 部 性 。 在 局 部 性 较 强 的 情况 














周 法 以 及 它们 的 延伸 方法 。 


GC 与 程序 处 理 的 本 质 无 关 ， 所 以 花费 在 GC 上 的 时 间 越 短 越 好 ， 但 是 上 述 基本 算法 在 性 能 上 


空间 的 ， 所 以 关 








j 率 不 高 。 复 制 的 过 程 虽然 是 暂时 的 ， 但 需要 准备 两 块 同样 大 小 的 新 旧 
上 法 的 延伸 方法 可 以 更 加 细致 地 分 割 内 

















GC 运行 时 间 和 停止 时 间 。 
是 指 在 整个 应 


























时 间 。 
停止 时 间 是 指 当 应 

















j 程 序 的 运行 时 间 之 中 ，GC 所 消耗 的 





j 程 序 中 断 本 来 要 做 的 处 理 转 而 进行 GC 时 ， 
大 停止 时 间 ， 是 一 项 重要 的 指标 。 











停止 时 间 之 所 以 重要 ， 是 因为 应 











处 理 被 中 断 的 时 间 。 特 别 是 
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j 程 序 长 时 间 不 响应 会 出 现 问题 。 假 如 有 1000 个 人 访问 Web 














服务 器 ，Web 服务 器 在 10 毫秒 内 对 其 中 的 999 人 返回 了 结果 ， 而 剩 下 的 一 个 人 不 巧 赶 上 了 GC, 45 


了 10 分 钟 才 等 到 结果 返回 。 这 种 情况 并 
在 机 右 人 行走 的 时 候 进 行 了 GC， 导 致 有 1 秘 钟 的 时 间 失 去 了 对 机 器 人 的 探 人 
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辅助 的 GC 技巧 
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将 GC 的 基本 算法 与 一 些 技巧 组 合 使 用 ， 可 以 改善 GC 的 性 能 。 


表 性 的 技巧 : 分 代 GC 和 增 量 





GC。 我 们 也 可 以 组 合 使 用 多 种 技巧 。 


首先 来 介绍 GC 技巧 中 最 重要 的 分 代 GC. 





不 是 我 们 想 看 到 的 。 再 比如 控制 机 器 人 的 软件 ， 如 果 软 件 





判 ， 那 机 需 人 可 能 就 会 
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分 代 GC 


分 代 GC 是 减少 程序 运行 时 间 中 GC 所 消耗 的 时 间 的 技巧 。 

分 代 GC 的 基本 思想 利用 了 普通 程序 的 一 个 特点 ， 即 大 部 分 对 象 会 在 较 短 时 间 内 成 为 垃圾 ， 在 
一 定时 间 内 存活 的 对 象 会 拥有 更 长 的 寿命 。 如 果 寿 命 长 的 对 象 容易 存活 ， 寿 命 短 的 对 象 早早 就 不 需 
要 了 ， 那 么 就 可 以 重点 扫描 刚 分 配 没 多 久 的 “年 经” 对象。 这 样 一 来 ， 即 使 不 扫描 全 体 对 象 ， 也 能 
回收 很 多 垃圾 。 

分 代 GC 将 对 象 分 为 刚 分 配 没 多 久 的 “新 生 代 ”和 长 时 间 存 活 的 “老年 代 ”， 根 据 实现 的 情况 
可 能 还 会 进一步 细 分 。 

只 扫描 很 可 能 马上 就 死亡 的 新 生 代 对 象 的 GC 被 称 为 Minor GC, Minor GC 的 具体 回收 步骤 如 
下 所 示 。 
首先 从 根 处 开始 扫描 ， 寻 找 存活 的 对 象 。 这 个 阶段 的 算法 用 标记 清除 法 或 复制 法 都 可 以 ， 但 大 
多 数 分 代 GC 采用 了 复制 法 。 需 要 注意 的 是 ,扫描 期 间 如 果 发 现 了 属于 老年 代 空间 的 对 象 ， 就 不 再 
扫描 之 后 的 对 象 了 ， 这 样 可 以 大 量 减少 要 扫描 的 对 象 的 数量 。 

然后 把 还 存活 的 对 象 分 到 老年 代 ， 具 体 做 法 是 : 在 使 用 复制 法 的 情况 下 ， 把 对 象 复制 到 老年 代 
空间 ; 在 使 用 标记 清除 法 的 情况 下 ， 一 般 是 给 对 象 加 上 某 种 标志 位 。 



















































































记录 老年 代 对 新 生 代 对 和 象 的 引用 


这 时 会 出 现 问题 的 是 老年 代 空 间 的 对 象 对 新 生 代 空间 的 对 象 的 引用 。 如 果 只 扫描 新 生 代 空间 ， 
那么 老年 代 空 间 的 对 象 对 新 生 代 空 间 的 对 象 的 引用 就 不 会 被 检查 到 。 因 此 ， 只 被 老年 代 空间 的 对 象 
引用 的 新 生 代 空间 的 对 象 就 会 被 当成 已 死去 的 对 象 ， 所 以 分 代 GC 需要 监视 对 象 的 更 新 。 如 果 有 老 
年 代 空 间 的 对 象 对 新 生 代 空 间 的 对 象 进行 引用 ， 就 把 这 个 引用 添加 到 被 称 为 记忆 集合 (remembered 
set) 的 表 中 。 在 进行 Minor GC 时 ， 把 这 个 记忆 集合 也 包含 进 根 里 。 

要 想 让 分 代 GC 正常 工作 ， 就 需要 时 刻 把 记忆 集合 的 内 容 更 新 为 最 新 状态 。 因 此 ， 当 老年 代 空 
间 的 对 象 对 新 生 代 空间 的 对 象 进 行 引 用 时 ， 就 要 把 记录 这 个 引用 的 过 程 加 在 所 有 更 新 对 象 的 地 方 。 
这 个 记录 引用 的 过 程 被 称 为 写 屏 障 (write barrier )。 

老年 代 空间 里 的 对 象 一 般 寿 命 很 长 ， 但 这 并 不 代表 这 些 对 象 是 “不 死 的 "。 随 着 程序 的 运 
行 ， 老 年 代 空 间 中 死去 的 对 象 会 越 来 越 多 。 要 想 避 免 出 现 老年 代 空 间 中 死去 的 对 象 占用 内 存 的 
情况 ， 就 需要 不 时 地 对 所 有 对 象 进行 扫描 ， 这 种 扫描 所 有 空间 的 对 象 的 GC 被 称 为 Full GC 或 
Major GC. 

分 代 GC 减少 了 GC 时 要 扫描 的 对 象 的 数量 ， 可 以 缩短 GC 运行 时 间 ， 但 由 于 Major GC 的 存 
在 ， 最 大 停止 时 间 还 是 没 能 得 到 改善 。 
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增 量 GC 





通过 前 面 机 器 人 的 例子 我 们 可 以 知道 ， 比 起 GC 的 性 能 ， 实 时 性 强 的 程序 更 重视 最 大 停止 时 间 
的 长 短 。 

实时 性 强 的 程序 需要 预测 GC 所 产生 的 中 断 时 间 ， 比 如 规定 GC 最 多 不 得 超过 10 毫秒 。 

普通 的 GC 算法 是 无 法 做 到 这 一 点 的 。 这 是 因为 GC 的 停止 时 间 取 决 于 对 象 的 数量 和 状态 。 
此 ， 为 了 保持 实时 性 ， 不 再 等 待 GC 全 部 完成 ， 而 是 把 处 理 细 分 并 一 点 一 点 地 执行 ， 这 种 做 法 被 称 
为 增 量 GC。 

在 增 量 GC 的 情况 下 ， 由 于 GC 处 理 是 一 点 一 点 地 进行 的 ， 所 以 在 GC 处 理 的 过 程 中 ， 在 程序 
保持 运行 的 状态 下 引用 被 蔡 换 。 扫 描 结束 后 ， 在 已 标记 的 对 象 被 蔡 换 ， 变 为 引用 新 的 对 象 的 情况 
下 ， 由 于 这 些 新 的 对 象 没有 被 标记 ， 所 以 即使 它们 还 活着 ， 也 会 被 回收 。 

为 了 避免 这 个 问题 出 现 ， 增 量 GC 和 分 代 GC 一 样 使 用 了 写 屏 障 。 在 对 已 标记 的 对 象 进行 替换 
时 ， 利 用 写 屏障 把 新 引用 的 对 象 加 入 到 扫描 的 起 点 。 

由 于 增 量 GC 是 把 处 理 细 分 后 执行 ， 所 以 中 断 时 间 可 以 控制 在 固定 值 之 内 。 而 中 断 处 理 需 要 花 

一 定 的 开销 ， 所 以 花 在 GC 上 的 总 时 间 会 增加 。 我 们 需要 对 二 者 折 中 权衡 。 
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引用 计数 法 


与 追踪 法 并 列 的 另 一 大 GC 方法 是 引用 计数 法 。 引 用 计数 法 是 指 在 各 个 对 象 中 记录 该 对 象 的 被 
引用 数 的 方法 ， 每 当 引 用 发 生变 动 时 就 更 新 这 个 计数 ( 图 4-21 )。 
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B: 引用 计数 











4-21 引用 计数 法 


被 引用 数 发 生变 动 的 场合 有 : 对 变量 的 赋值 、 对 象 内 容 的 更 新 、 函 数 的 结束 〈 局 部 变量 使 用 的 
引用 消失 ) 等 。 很 明显 ， 对 象 的 被 引用 数 为 0 就 意味 着 该 对 象 没 有 被 任何 对 象 引用 ， 所 以 就 要 释放 
该 对 象 的 内 存 空 间 。 

引用 计数 法 最 大 的 优点 是 可 以 从 局 部 范围 来 判断 对 象 的 释放 。 追 踪 法 需要 从 根 开始 扫 描 全 部 的 
对 象 才能 判断 对 象 的 生死 ， 而 引用 计数 法 在 引用 为 0 的 瞬间 就 可 以 判断 出 该 对 象 已 死 。 男 外 ， 引 用 
计数 法 能 够 以 一 个 个 对 象 为 单位 来 释放 对 象 ， 与 其 他 算法 相 比 ，GC 产生 的 停止 时 间 更 短 ( 的 情况 
较 多 )， 这 也 是 它 的 一 个 优点 。 

当然 它 也 有 缺点 。 引 用 计数 法 最 大 的 缺点 就 是 不 能 释放 循环 引用 的 对 象 。 两 个 相互 引用 的 对 象 
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即使 ( 作为 一 个 整体 ) 没有 被 其 他 任何 地 方 引用 而 成 为 了 垃圾 ， 被 引用 数 也 不 会 变 为 0， 结果 是 内 
存 永 远 都 不 会 被 释放 。 

引用 计数 法 的 男 一 个 缺点 是 ， 当 引用 发 生变 动 时 ， 需 要 正确 地 增 减 引用 计数 ， 如 果 不 小 心 忘记 
了 ， 就 会 引起 很 难 找 出 原因 的 内 存 问 题 。 

最 后 ， 引 用 计数 法 还 有 一 个 缺点 ， 那 就 是 引用 计数 的 管理 与 并 行 处 理 不 能 很 好 地 协作 。 同 时 在 
多 个 线程 增 减 引用 计数 时 ， 可 能 会 出 现 引 用 计数 值 不 一 致 的 情况 〈 结果 就 会 出 现 内 存 问题 ) 为 了 
避免 出 现 这 个 问题 ,需要 排他 地 进行 引用 计数 的 操作 。 对 于 需要 频繁 进行 的 引用 操作 ， 每 次 加 锁 产 
生 的 开销 也 是 不 能 忽视 的 。 





















































Streem 的 GC 

















直 以 来 Streem 使 用 的 都 是 非常 方便 的 Boehm GC 库 ， 这 个 库 可 以 向 C 和 C++ 的 程序 自动 添 
加 Gc 功能 。 使 用 这 个 库 之 后 ， 对 于 那些 用 malloc 和 new 分 配 的 对 象 (内 存 空间 )， 开 发 者 无 须 
逐个 进行 £ree/delete, GC 库 就 会 自动 检测 出 不 再 使 用 的 对 象 并 回收 。 但 遗憾 的 是 ， 这 个 库 有 使 
用 上 的 限制 ， 不 能 对 指针 进行 加 工 ， 这 样 就 不 能 和 4-3 节 引 入 的 NaN Boxing 同时 使 用 了 。 

所 以 我 只 好 放弃 Boehm GC， 去 开发 自己 的 GC。 既 然 要 开发 自己 的 GC， 自 然 就 想 在 实现 上 
尽 可 能 地 展现 出 Streem 本 身 的 特点 。 

Streem 的 一 个 特点 是 ， 在 事件 循环 开始 后 ， 各 个 处 理 以 任务 为 单位 独立 运行 。 任 务 运行 中 产 
生 的 数据 ， 除 了 显 式 调用 了 emit 的 对 象 (和 该 对 象 递归 引用 的 对 象 ) 之 外 ， 都 不 会 被 其 他 任务 访 
问 。 这 样 一 来 ， 只 要 标记 由 emit 向 其 他 任务 “输出 ”的 对 象 ， 在 任务 结束 时 将 其 余 创建 的 数据 全 
部 删除 ， 就 有 可 能 实现 以 任务 为 单位 的 GC。 也 就 是 说 ， 这 种 GC 和 分 代 GC 一 样 ， 不 用 扫描 全 体 
对 象 就 可 以 进行 ， 因 此 GC 运行 时 间 就 会 缩短 。 




















































































































旧 的 对 象 不 能 引用 新 的 对 象 


Streem 的 另 一 个 特点 是 几乎 所 有 的 数据 结构 都 不 能 修改 ， 数 据 结构 不 能 修改 对 GC 来 说 有 以 下 
几 点 好 处 。 

首先 ， 对 象 不 能 修改 就 意味 着 该 对 象 所 引用 的 对 象 必须 在 对 象 创建 时 就 已 经 存在 。 也 就 是 说 ， 
旧 的 对 象 无 法 引用 在 它 后 面 创建 的 新 的 对 象 ， 于 是 也 就 不 会 产生 循环 引用 的 问题 了 。 前 面 提 到 过 ， 
引用 计数 法 的 缺点 是 无 法 处 理 循环 引用 的 情况 ， 而 不 可 修改 的 对 象 则 可 以 克服 这 个 缺点 。 

另外 ， 既 然 旧 的 对 象 无 法 引用 比 它 新 的 对 象 ， 那么 在 实现 分 代 GC 时 也 就 不 需要 使 用 写 屏 
障 了 。 

这 一 特点 对 实现 复制 法 也 有 好 处 。 如 果 对 象 可 以 修改 ， 就 需要 严格 区 分 对 象 和 它 的 副本 。 这 是 
因为 即使 修改 了 某 一 个 对 象 ， 它 的 副本 也 不 会 被 修改 。 而 如 果 禁 止 修改 对 象 ，( 除非 是 显 式 地 用 指 
针 值 等 进行 区 分 ) 就 没有 必要 区 分 对 象 的 原本 和 它 的 副本 了 。 一 般 来 说 ， 在 复制 法 的 GC 中 ， 需 要 
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将 所 有 的 引用 修改 为 指向 被 复制 的 新 对 象 。 但 是 在 不 允许 修改 对 象 的 情况 下 ， 就 不 需要 修改 现 有 的 
引用 ， 只 要 创建 副本 就 能 实现 复制 法 〈 仅 限于 副本 数 不 多 的 情况 )。 














GC 的 实现 








虽然 实现 GC 要 做 的 事情 有 很 多 ， 但 是 一 次 性 完成 太 复 杂 的 东西 是 会 失败 的 ， 所 以 我 打算 分 为 
以 下 步骤 去 实现 。 

Streem 基本 上 是 把 程序 细 分 为 任务 单位 来 执行 的 ， 每 次 运行 任务 时 都 会 进行 GC。 

任务 运行 中 如 果 有 数据 在 任务 之 间 传 递 (也 就 是 调用 了 emit )， 那 么 被 传递 的 数据 在 该 任务 外 
也 可 能 被 引用 ， 所 以 把 这 样 的 数据 标记 为 “存活 "。 如 果 数 据 还 用 数组 引用 了 其 他 对 象 ， 就 也 〈 递 
归 地 ) 标记 这 些 被 引用 的 对 象 。 男 外 还 ( 递归 地 ) 标记 被 全 局 变量 引用 的 数据 。Streem 的 全 局 变量 
也 是 不 能 修改 的 ， 所 以 对 象 一 旦 被 全 局 变量 引用 ， 它 在 整个 程序 执行 期 间 就 都 是 存活 的 。 

一 个 任务 运行 结束 后 ， 除 了 被 标记 为 “存活 ”的 对 象 ， 将 任务 运行 过 程 中 其 他 被 分 配 的 对 象 全 
部 删除 ， 在 下 一 个 任务 开始 之 前 清除 掉 “ 存 活 ” 标 记 。 















































未 来 GC 的 实现 


这 次 实现 的 只 是 最 基本 的 GC 功能 ， 这 项 功能 还 有 很 大 的 改善 余地 。 这 里 我 们 来 聊 一 聊 今后 的 





Streem 的 各 个 任务 在 不 同 的 线程 中 运行 ， 在 多 个 线程 访问 同一 个 数据 的 情况 下 需要 加 锁 等 ， 这 
不 但 容易 引发 问题 ， 还 会 影响 运行 性 能 。 因 此 Streem 为 每 个 线程 预先 分 配 了 一 定 的 内 存 空间 ， 创 
建 数据 时 就 从 这 块 内 存 空间 分 配 。 由 于 这 块 内 存 空间 不 会 被 其 他 线程 访问 ， 所 以 不 需要 并 发 控制 。 

另外 , 用 emit 传递 数据 的 任务 在 其 他 线程 中 运行 时 ， 要 把 数据 递归 地 复制 到 该 线程 的 内 存 空 
间 中 去 。 前 面 说 过 ，Streem 的 数据 无 法 修改 ， 基 本 不 需要 移动 对 象 的 内 存 空间 ， 在 这 种 情况 下 很 容 
易 实 现 复制 法 。 

最 终 Streem 的 GC 将 会 通过 组 合 使 用 标记 清除 法 和 复制 法 来 实现 。 男 外 ， 每 当 任 务 处 理 结束 时 
对 处 理 中 创建 的 数据 进行 GC， 这 也 可 以 认为 是 分 代 GC 的 一 种 形式 。 

虽然 还 在 设想 当中 ， 但 是 我 觉得 利用 Streem 语言 的 特性 可 以 实现 比 之 前 的 通用 语言 效率 更 高 
的 GC。 我 会 继续 研究 下 去 的 。 













































































小 结 


关于 GC 的 理论 和 实现 的 详细 内 容 ， 请 参考 《垃圾 回收 的 算法 与 实现 》 和 《垃圾 回收 算法 手 
册 : 自动 内 存 管 理 的 艺术 》 等 相关 图 书 ， 这 些 书 也 许 会 为 你 开启 新 世界 的 大 门 。 
Streem 的 语法 对 GC 的 影响 让 我 觉得 很 有 意思 。 在 设计 Streem 的 语法 时 ， 我 只 考虑 了 并 行 运 
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行 ， 完 全 没有 考虑 GC， 没 想到 设计 出 来 的 语法 竞 在 意 想 不 到 的 地 方 产生 了 影响 。 


时 光 机 专栏 
语言 的 特性 会 影响 GC 























本 节 是 2016 年 2 月 刊 中 刊登 的 内 容 。 本 节 的 主题 是 GC， 前 半 部 分 内 容 介 绍 了 GC 技术 的 
概要 ， 在 有 限 的 篇 幅 里 我 把 相关 的 知识 大 致 介绍 了 一 遍 ( 自 卖 自 夸 )。 
昌 是 有 一 点 让 我 感到 非常 抱歉 。 在 后 半 部 分 介绍 Streem 的 GC 时 ， 我 研究 了 Streem 的 语 
法 是 如 何 对 GC 产生 影响 的 ， 并 介绍 了 能 够 发 挥 Streem 的 特点 的 GC 实现 。 内 容 本 身 并 没 
错 ， 只 是 这 个 Streem 专用 的 GC 功能 到 现在 还 没有 实现 。 

在 4-3 节 的 时 光 机 专栏 中 我 提 到 过 自己 干劲 不 足 的 事情 ， 写 这 一 节 时 我 同样 出 现 了 这 种 情 
况 。 比 起 具体 的 GC 实现 ， 我 希望 大 家 在 本 节 更 多 地 关注 探索 某 种 语言 的 特点 是 如 何 影响 GC 
功能 的 实现 的 这 一 思考 过 程 。Streem 的 GC 早晚 都 要 实现 ， 但 是 我 在 写 这 篇 稿子 时 还 没有 着 手 
去 做 ， 希 望 在 大 家 读 到 这 本 书 的 时 候 我 已 经 实现 了 GC 功能 。 























































































































































































































-D 无 锁 算法 








在 并 发 编程 中 ， 并 发 控制 对 避免 出 现 错误 结果 起 到 了 非常 重要 的 作用 。 然 而 ， 为 对 象 
加 锁 的 代价 是 运行 效率 降低 。 为 避免 对 性 能 产生 影响 而 不 向 对 象 加 锁 的 数据 结构 和 算 
法 称 为 “无 锁 ” (lock free) 。 本 节 先 从 无 锁 的 概念 开始 讲 起 ， 然 后 循序 渐进 ， 向 大 
家 介绍 一 下 如 何 实 现 无 锁 。 












































首先 我 来 讲 一 下 在 并 发 运行 环境 中 线程 按照 预期 运行 ( 线程 安全 ) 的 重要 性 。 

我 们 以 图 4-22 这 种 简单 的 队列 实现 为 例 。 它 的 原理 很 简单 ，struct queue 这 个 数据 结构 
拥有 head 和 tail 两 个 链接 ， 通 过 向 tail 添加 数据 ， 从 head 取出 数据 ， 实 现 了 一 个 先 人 先 出 
( FIFO ) 队列 。 











#include <stdio.h> 
#include <stdlib.h> 


struct queue_node { 
void* v; 
struct queue node* next; 


E 


struct queue { 
struct queue node* head; 
struct queue node* tail; 
//a 

人 


struct queue* 
queue new() 


{ 


struct queue* q; 


q = (struct queue*)malloc (sizeof (struct queue) ); 
iE (p ee wu) | 

return NULL; 
} 


/* Sentinel node */ 
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q-»head - (struct queue node*)malloc(sizeof (struct queue node)); 
q etall- q-»head; 
q->head->next = NULL; 


//b 


return q; 


int 
queue add(struct queue* q, void* v) 
struct queue node *n; 
struct queue node *node - (struct queue node*)malloc(sizeof(struct queue 


node)); 


node-»v - v; 
node-»next - NULL; 
//c 

q-»tail-»next = node; 4— 
q-»tail = node; <= (2) 
//c 


return 1; 


void* 
queue get(struct queue* q) 
struct queue node *n; 


void *val; 


n - q-»head; 
if (n-»next == NULL) { 
return NULL; 


} 


//c 

cu heogdE-unm cues 

val = (void*)n-»next-»v; 
WE 

free (n); 


return val; 


图 4-22 ”队列 的 实现 (第 1 版 ) 


4-5 无 锁 算法 | 225 

















图 4-22 的 程序 提供 了 3 个 API， 如 表 4-10 所 示 。API 与 后 面 解说 的 版 本 相同 。 











表 4-10 队列 的 API 


API 


struct queue* queue new() 创建 队列 
ümmtqueuesaddistimsuctequeuetiquevonde y) 向 队列 添加 
void* queue get(struct queue* q) 从 队列 取出 
并 发 运行 的 陷阱 








即使 是 这 种 实现 起 来 非常 简单 的 队列 ， 在 使 用 了 多 个 线程 的 并 发 运行 环境 中 运行 时 也 会 有 意 想 
不 到 的 问题 发 生 。 

在 并 发 运行 时 ， 同 一 个 数据 有 可 能 被 同时 使 用 、 修 改 ， diii t SUCUS FAIRE SUE, TC 
据 丢失 等 情况 ， 比 如 下 面 这 种 场景 。 请 大 家 一 边 看 图 4-22 的 程序 一 边 思考 。 


























1. 线程 A 和 线程 B 同时 向 队列 写 入 数据 

2. 线程 A 把 新 的 节 DN (q->tail) 节点 的 next， 并 将 G->tail 修改 为 指向 
新 的 节点 ( 图 4-22 的 (1) 和 (2) 部 分 ) 

. 这 时 线程 B 也 添加 节点 ， 线程 B 就 会 覆盖 线程 A 修改 的 q->tail->next 

.之 后 ， 如 果 按 照 线程 A、B 的 顺序 修改 q- >tail1， 线 程 A 添 加 的 节点 就 会 丢失 。 如 果 反 过 
来 按照 线程 B、A 的 顺序 修改 ， 链 接 就 失去 了 完整 性 ， 从 head 到 tail 的 链接 中 断 ， 在 这 
之 后 向 队列 添加 的 元 素 将 无 法 取出 
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这 只 是 其 中 一 个 例子 而 已 ， 还 可 能 会 发 生 其 他 各 种 各 样 的 问题 。 而 且 这 种 问题 时 隐 时 现 ， 可 能 
运行 100 次 才 会 失败 1 次 ， 是 一 种 很 难 发 现 的 bug。 

这 种 类 型 的 bug 就 是 “ 海 森 保 bug”。 还 有 一 种 难以 找 出 原因 的 bug， 即 内 存 bug， 这 两 个 bug 
都 让 开发 者 感到 头疼 。 



































引入 并 发 控制 





要 避免 这 种 问题 ， 最 简单 的 方法 就 是 引入 锁 。 在 POSIX 标准 的 pthread 库 中 ， 用 于 并 发 控制 
的 锁 的 数据 类 型 定义 如 下 。 











pthread mutex t 


mutexJÉH Jr (mutual exclusive ) 的 缩写 ， 使 用 这 个 mutex 就 可 以 进行 队列 操作 的 并 发 控制 ， 
修改 起 来 很 简单 。 
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首先 向 struct queue 结构 体 添 加 Pthread_mutex t 类 型 的 成 员 lock (图 4-22 中 //a 
的 位 置 )。 在 初始 化 队列 的 queue_new() 函数 中 ,添加 如 下 所 示 的 锁 的 初始 化 处 理 〈 图 4-22 中 
//b 的 位 置 )。 











pthread mutex init(&lock, NULL); 








在 queue add() fllqueue get O 函数 中 ， 用 以 下 语句 将 对 象 的 使 用 、 更 新 等 需要 进行 并 发 
控制 的 部 分 围 起 来 (图 4-22 中 /Yc 的 位 置 )。 碰 到 处 理 途中 用 return 等 结束 处 理 的 情况 时 ， 不 要 
忘记 释放 锁 。 




















pthread mutex lock(&lock) 
pthread mutex unlock (&lock) 


其 他 部 分 与 图 4-22 的 代码 相同 ， 这 里 就 不 全 部 贴 出 来 了 。 

为 了 保持 数据 的 完整 性 ， 使 用 mutex 保护 不 能 同时 访问 的 代码 ， 可 以 使 数据 结构 线程 安全 。 
一 旦 加 了 锁 ， 在 其 他 线程 为 了 执行 同一 段 代码 再 去 加 锁 时 ， 就 会 停止 运行 ， 等 待 锁 的 释放 。 这 样 一 
X, H lock 和 unlock 围 住 的 代码 只 能 一 次 被 一 个 线程 执行 ， 同 时 执行 时 出 现 的 问题 就 不 会 再 发 
生 了 。 









































锁 的 问题 





使 用 mutex 锁 进 行 并 发 控制 的 优点 是 ， 不 需要 大 规模 修改 原 有 代码 即 可 支持 多 线程 。 

但 是 , 在 某 个 线程 持 有 锁 的 这 段 时 间 里 , 其 他 线程 只 能 等 待 锁 被 释放 “。 使 用 多 线程 编程 进行 并 
发 运行 的 目的 是 尽 可 能 地 通过 并 行 工作 来 提高 性 能 ， 所 以 我 们 不 希望 看 到 线程 因 等 待 而 停止 工作 这 
种 情况 。 尤 其 是 频繁 访问 的 数据 ， 并 发 控制 的 等 待 造成 的 时 间 损失 让 人 觉得 可 惜 。 

而 无 锁 就 是 一 种 不 会 产生 等 待 时 间 ， 即 使 没有 锁 也 可 以 实现 并 发 运行 的 结构 。 


















































什么 是 无 锁 


无 锁 ， 顾 名 思 义 ， 就 是 不 使 用 锁 。 也 许 有 的 读者 会 有 疑问 :“ 不 使 用 锁 来 进行 并 发 控制 ， 还 能 够 
处 理 好 来 自 多 个 线程 的 访问 吗 ?” 

无 锁 的 数据 结构 是 通过 “原子 操作 ”这 个 神奇 的 技术 来 实现 并 发 运行 的 。 

这 里 的 原子 指 的 不 是 原子 能 。 由 于 原子 有 不 可 分 割 的 含义 ， 所 以 用 原子 操作 来 称呼 那些 保证 在 


























中 ”准确 来 说 ， 还 有 一 个 pthread_mutex trylock 0 函数 可 以 用 来 判断 代码 是 否 已 经 被 加 锁 ， 但 光 有 这 个 函数 还 
不 能 进行 无 锁 处 理 ， 所 以 它 并 不 能 起 到 很 好 的 效果 。 
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处 理 过 程 中 不 会 被 线程 调度 机 制 打 断 的 操作 。 

原子 操作 在 执行 过 程 中 不 会 被 打 断 ， 要 么 整个 处 理 成 功 ， 要 么 由 于 前 提 条 件 不 成 立 而 处 理 失 
败 。 还 不 熟悉 并 发 处 理 的 人 ( 其 实 我 也 不 是 非常 熟悉 ) 可 能 很 难 想象 并 发 编程 竟然 连 这 一 点 都 无 法 
保证 。 

令 人 意外 的 是 ， 计 算 机 中 不 可 分 割 的 操作 并 不 多 。 大 家 可 能 觉得 CPU 的 一 条 指令 是 原子 性 的 ， 
但 其 实在 现在 的 CPU 中 ， 机 器 码 的 一 条 指令 常常 被 分 割 为 多 个 hn op 这 种 小 的 指令 集 ， 很 多 都 是 
在 经 过 优化 之 后 再 执行 的 。 也 就 是 说 ， 即 使 是 机 器 人 码 的 一 条 指令 ， 严 格 来 说 也 不 一 定 是 原子 性 的 。 
这 就 意味 着 普通 的 方法 是 无 法 进行 原子 操作 的 。 




































































CPU 拥有 原子 操作 指令 


然而 原子 性 在 并 发 环境 中 是 非常 重要 的 。 线 程 操 作 库 等 ( 比如 mut ex 的 实现 ) 使 用 的 一 定 
是 原子 操作 。 因 此 ， 现 代 几 乎 所 有 的 CPU 都 准备 了 保证 原子 操作 的 指令 ， 典 型 的 原子 操作 指令 有 
CAS。 

CAS 指令 有 3 个 参数 。 





CAS(a, b, e) 

















a 是 地 址 ，b 和 c 是 整数 值 。 上 述 代码 表示 如 果 a 的 地 址 的 值 是 bp， 就 把 值 修改 为 c 并 返回 
真 ， 和 否则 返回 假 。 也 就 是 说 ， 使 用 CAS 可 以 保证 从 读 取 了 某 个 地 址 的 数据 开始 ， 到 对 值 进行 加 工 
并 写 入 新 的 值 为 止 ， 在 这 期 间 不 会 有 其 他 线程 修改 这 个 地 址 的 值 。 

以 前 C 语言 是 没有 这 样 的 指令 的 ， 但 现在 的 GCC (ver 4.1 之 后 的 版 本 ) 增加 了 下 面 一 条 指令 ， 
由 此 ，C 语言 就 可 以 使 用 CAS 了 。 














xt 








. Sync bool compare and swap() 











另外 ， 使 用 CAS 指令 可 以 构建 无 锁 的 数据 结构 。 





无 锁 队 列 








下 面 我 们 就 通过 一 个 例子 来 看 一 下 如 何 使 用 CAS 指令 实现 无 锁 的 数据 结构 。 与 图 4-22 的 程序 
API 兼容 的 无 锁 队 列 的 实现 如 图 4-23 所 示 。 




















HSinclude «stdio.h» 
Hinclude «stdlib.h» 
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struct queue node { 
void* v; 
struct queue node* next; 


IT 


struct queue ( 
struct queue node* head; 


Sum ci cie neamocie Salire e 


bs 


struct queue* 
queue new() 


{ 


struct queue* q; 


q = (struct queue*)malloc (sizeof (struct queue) ); 
ax (@ == None) d 
return NULL; 
) 
/* Sentinel node */ 


q-»head - (struct queue node*)malloc(sizeof(struct queue node)); 














q-»tail = q-»head; 
q-»head-»next - NULL; 


return q; 


int 
queue add(struct queue* q, void* v) 
struct queue node *n; 
struct queue node *node - (struct queue node*)malloc(sizeof(struct queue 


node)); 


node-»v = v; 
node-»next - NULL; 
while (1) ( 
/* f£ tail */ 
im e xp eEgBalllr 
/* tail->next 应 该 为 NULL。 如 果 为 NULL 就 添加 node， 进 入 下 一 个 处 理 */ 
if ( sync bool compare and swap(&(n-»next), NULL, node)) { 








break; 
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} 
/* 由 于 修改 失败 ( 被 其 他 线程 修改 了 ) ， 所 以 尝试 修改 q- >tail */ 


else { 
































. Sync bool compare and swap(&(q-»tail), n, n-»next); 
} 
} 
/* B= */ 
. Sync bool compare and swap(&(q-»tail), n, node); 


return 1; 


void* 
queue get(struct queue* q) 
struct queue node *n; 


void *val; 


while (1) ( 
/* 取出 q->head->next */ 
n - q-»head; 
/* 如 果 队 列 为 空 ， 返 回 NULD */ 
if (n-»next -- NULL) ( 
return NULL; 


} 
/* 修改 q->head */ 








口 





























if ( sync bool compare and swap(&(q-»-head), n, n-»next)) 1 
break; 
) 
} 
/* 取出 值 ( 从 原来 的 头 节 点 ) */ 
val = (void *) n-»next-»v; 
/* 释放 不 使 用 的 节点 ( 原来 的 头 节点 ) */ 
free (n); 


return val; 


图 4-23 队列 的 实现 (第 3 版 ) 
使 用 了 无 锁 的 数据 结构 的 例子 





图 4-23 的 程序 中 有 几 点 值得 注意 。 第 一 点 是 图 4-23 和 图 4-22 的 结构 体 定 义 完全 相同 ， 不 需要 
向 无 锁 队 列 添加 锁 等 成 员 。 
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另 一 点 是 使 用 CAS 修改 结构 体 成 员 。 前 面 提 到 过 ， 使 用 CAS 时 需要 指定 待 修改 的 地 址 的 “ 现 
在 的 期 望 值 ”和 “新 值 ”。 如 果 “ 现 在 的 期 望 值 ”与 该 地 址 实际 的 内 容 不 同 ， 就 说 明 值 已 经 被 其 他 
线程 修改 ， 这 时 就 要 重新 尝试 修改 。 
我 们 来 实际 比较 一 下 queue add ( fll queue get O 的 定义 。 图 4-22 的 程序 ( 由 于 没有 考 
虑 到 处 理 过 程 中 被 其 他 线程 修改 的 情况 ) 只 是 通过 赋值 来 进行 修改 ， 而 图 4-23 的 程序 则 通过 重复 
使 用 CAS 来 尝试 修改 ， 直 到 修改 成 功 为 止 。 


















































保证 处 理 顺 序 





5-2 节 中 我 提 到 过 ， 由 于 处 理 的 先后 顺序 不 是 特别 重要 ， 所 以 整个 程序 只 准备 一 个 队列 ， 在 这 
个 队列 中 添加 处 理 数据 的 任务 。 

但 实际 按照 这 个 结构 进行 测试 后 ， 我 发 现在 处 理 比较 简单 的 情况 下 程序 能 够 正常 运行 ,一 旦 情 
况 稍 微 复杂 一 些 ， 运 行 结果 就 会 偏离 预期 。 

出 现 这 种 情况 的 其 中 一 个 原因 是 需要 考虑 先后 顺序 的 处 理 比 预想 的 还 要 多 。 比 如 后 面 章节 将 介 
绍 的 CSV 处 理 ， 它 有 一 个 功能 : 如 果 第 一 行 都 是 字符 串 的 字段 ， 就 把 这 行 中 的 字段 的 值 看 作 各 字 
段 的 名 称 。 但 是 ， 如 果 不 能 保证 行 的 处 理 顺 序 ， 那 么 第 一 行 就 不 一 定 会 被 最 先 处 理 了 ， 不 过 第 一 行 
以 外 的 行 顺序 发 生 改 变 倒 没什么 问题 。 

男 外 ， 在 文件 的 读 写 方面 ， 多 数 情况 下 我 们 不 希望 行 的 顺序 发 生变 化 。 比 如 ， 在 用 Streem 编 
写 将 读 取 的 字符 串 转换 为 大 写字 母 的 过 滤器 时 ， 我 们 就 不 希望 行 的 先后 顺序 发 生 改 变 。 

为 了 保证 处 理 顺序 ， 我 决定 修改 队列 的 用 法 。 具 体 来 说 ， 证 每 个 流 都 拥有 保存 了 顺序 的 数据 队 
列 ， 然 后 准备 一 个 全 局 范围 的 队列 ， 用 于 保存 预定 运行 任务 的 流 。 

emit 之 后 ， 数 据 和 处理 数据 的 函数 就 会 被 添加 到 各 个 流 的 队列 ， 等 待 处 理 的 流 就 会 被 添加 到 
全 局 队列 ( 图 4-24 )。 



































void 
strm emit(strm stream* strm, strm value data, strm callback func) 
{ 
/* data 不 为 nil 时 添加 到 queue */ 
if (!strm nil p(data)) ( 
/* dst: E An */ 
strm stream* dst - strm-»dst; 
/* 向 下 一 个 流 的 队列 添加 保存 了 函数 和 data 的 strm task */ 
strm queue add(dst-»queue, strm task new(dst-»start func, data)); 
/* 为 了 预定 在 下 一 个 流 运行 任务 ， 把 下 一 个 流 添 加 到 队列 */ 
strm queue add(queue, dst); 
) 
/* 如 果 指 定 了 func， 就 把 它 也 添加 到 队列 */ 




















it (Tome) 4 





V2 E data x 

















意义 ， 指 定 为 nil */ 
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strm queue add(strm-»queue, strm task new(func, strm nil value())); 


/* 向 优先 级 较 人 


strm queue add(prod queue, 


) 
} 





氏 





4-24 ”使 用 了 新 队列 的 emit 
总 的 来 说 ，strm_emit () 是 按照 下 列 顺序 对 下 一 个 流 emit 数据 的 。 


1. 向 下 一 个 流 的 队列 添 











2. 把 下 一 个 流 添 加 到 全 
3. 在 指定 了 func 时 ， 向 自 





strm); 


加 任务 ( 函数 和 数 和 
局 队列 ， 预 定 运行 任务 
己 的 流 的 队列 添加 任务 ， 向 优 $ 








的 队列 (prod queue) 添加 流 */ 


EH ) 





级 较 低 的 队列 添加 流 ， 预 定 运行 任务 





之 所 以 需要 优先 级 较 低 的 队列 ， 是 因为 如 果 过 于 频繁 地 运行 生产 者 ， 队 列 就 会 变 得 很 长 ， 造 成 
内 存 空间 浪费 ， 所 以 需要 降低 运行 生产 者 的 优先 级 。 


将 来 我 打算 尝试 用 其 他 方法 来 控制 数据 量 。 


并 发 控制 








并 发 控制 是 在 实际 运行 中 出 现 的 另 一 个 问题 。 
夺 数 据 ， 这 是 因为 各 个 任务 不 是 线程 安全 的 。 






































Fi 





属于 同一 个 流 的 多 个 任务 在 同时 运行 时 可 能 会 争 





前 面 的 实现 都 是 通过 固定 运行 流 的 工作 线程 来 使 同一 个 流 的 任务 不 能 同时 运行 的 ， 但 是 从 有 效 
使 用 CPU 内 核 的 观点 来 看 ， 固 定 工作 线程 并 不 是 一 个 好 方法 。 


于 是 我 对 各 工作 线程 的 处 理 循 环 的 实现 做 了 比较 大 的 修改 ( 图 4-25 )。 


static void* 


task loop(void *data) 


1 


strm stream* strm; 


ex (5) 1 
/* 从 队列 








H EY H 


Hi */ 


strm - strm queue get(queue); 


/* 如 果 队列 为 空 ， 就 从 优先 级 较 低 


Em 


strm = 














的 队列 





PER 


ui > 





Li 


strm queue get(prod queue); 
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} 


im (aemm di 





























/* Hstrm _excl1 作 为 标志 位 进行 并 发 控制 */ 





if (strm atomic cas(strm-»ex 


struct strm task* t; 


gl, 9, 19) 4 





/* 对 各 个 流 的 队列 中 存在 的 任务 全 














部 进行 处 理 */ 





wala (Œ = Strum GUES SEE 
/* 运行 任务 */ 
Baskyexeec lS Em 

} 

/* 恢复 标志 位 */ 











strm atomic cas(strm-»excl, 
} 
} 
/* 如 果 流 全 部 被 关闭 ， 就 结束 循环 */ 
if (stream count -- 0) ( 
break; 
) 


} 


return NULL; 


} 


图 4-25 修改 后 的 工作 线程 的 处 理 循环 
处 理 循环 的 步骤 如 下 所 示 。 





1. 从 队列 中 取出 流 





(strm-»queue)) != NULL) 


d; Qs 




















2. 如 果 流 中 没有 任务 正在 运行 ， 就 设置 





















































3. 如 果 流 中 有 任务 正在 运行 ( 已 设置 标 














志 位 )， 则 跳 过 











{ 








标志 位 ( stzm_excl )， 然 后 运行 所 有 积 搬 的 任务 























在 多 个 任务 被 添加 到 队列 时 ,会 出 现 因为 设置 了 标志 位 而 导致 流 被 忽略 的 情况 ， 但 这 一 处 理 的 











目的 不 过 是 安排 任务 的 执行 ， 所 以 也 没有 什么 问题 。 设 置 了 标志 位 就 意味 着 对 流 的 处 理 正在 运行 ， 
既然 是 正在 运行 ,那么 积攒 在 队列 中 的 所 有 任务 就 都 会 被 执行 。 
话 虽 如 此 ， 但 效率 不 高 也 是 事实 ， 我 们 今后 再 去 研究 更 好 的 做 法 。 











图 4-25 的 函数 调用 了 下 面 的 函数 。 





strm atomic cas() 








这 是 调用 下 面 这 个 GCC 的 函数 的 宏 。 














Sync bool compare and swap() 


我 自己 老 是 记 不 住 这 个 扩展 命令 ， 所 以 想 出 了 这 个 办 法 。 
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图 4-25 中 使 用 stzm_atomic cas O 的 部 分 是 线程 安全 的 标志 位 的 典型 用 法 示例 。 


无 锁 运 算 


GCC 4.1 之 后 提供 的 原子 运算 就 不 只 是 CAS 了 。Streem 准备 了 把 这 些 运算 汇总 起 来 的 


atomic.h 头 文件 (图 4-26 )。 现 在 只 准备 了 使 用 GCC 扩展 命令 的 宏 ， 将 来 如 果 需 要 广 持 其 他 编译 





器 (比如 Visual C++ )， 只 需 修改 这 个 头 文件 即 可 。 




















HBdefine strm atomic cas(a,b,c) | sync bool compare and swap(&(a), (b),(c)) 
#define strm atomic add(a,b) sync fetch and add(&(a), (b)) 

#define strm atomic sub(a,b) sync fetch and sub(&(a), (b)) 

ddefine strm atomic inc (a) sync fetch and add(&(a),1) 

ddefine strm atomic dec (a) sync fetch and sub(&(a),1) 

Hdefine strm atomic or (a,b) sync fetch and or(&(a), (b)) 

ddefine strm atomic and(a,b) sync fetch and and(&(a), (b)) 





图 4-26 atomic.h 











我 费 了 很 大 功夫 才 实 现 无 锁 运 算 ， 所 以 我 也 把 它 用 在 了 Streem 语言 处 理 器 的 其 他 地 方 。 
首先 ， 在 增 减 变量 stream count 时 使 用 了 strm atomic inc() 和 strm atomic 


























dec(), stream count 用 于 统计 活跃 的 流 的 数量 ， 以 检查 流 处 理 是 





否 已 结束 。 由 于 普通 的 增 量 





运算 符 不 保证 原子 性 ， 所 以 在 更 新 时 机 不 对 时 可 能 无 法 正确 地 计数 。 但 如 果 是 strm_atomic 系列 


的 函数 ， 就 不 用 担心 这 个 问题 了 。 





stream count 为 0 就 意味 着 已 经 没有 要 处 理 的 流 了 ， 这 时 可 以 放心 地 结束 事件 循环 。 
在 维护 用 于 流 的 存活 管理 的 被 引用 数 时 ， 也 使 用 了 strm atomic inc 和 dec。 在 “ 流 的 混 
合 ” 等 一 个 流 被 多 个 上 游 的 流 引 用 的 情况 下 ， 如 果 所 有 上 游 的 流 都 运行 结束 了 ， 就 可 以 “关闭 ”下 





游 的 流 ， 因 此 需要 统计 每 个 流 被 多 少 个 流 引 用 了 。 每 当 流 被 连接 到 一 起 时 ， 


上 游 流 被 关闭 时 ， 被 引用 数 减少 ， 当 被 引用 数 变 为 0 时 ， 就 关闭 流 。 


另外 ,我 想 这 项 技术 也 可 以 用 在 统计 流 的 元 素数 的 count () 中 。 不 过 








发 控制 ， 还 不 需要 特意 修改 为 原子 操作 ， 所 以 我 还 没有 动手 去 改 。 











被 引用 数 就 会 增加 ， 当 


目前 任务 处 理 进 行 了 并 
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小 结 





























原子 操作 指令 及 其 相关 的 数据 结构 对 有 效 使 用 多 核 很 有 效果 。 本 节 讲 解 了 无 锁 数据 结构 的 原理 
和 实现 。 








时 光 机 专栏 
无 锁 算 法 的 实现 有 问题 





























本 节 是 2016 年 5 月 刊 中 刊登 的 内 容 。 关 于 这 一 节 的 内 容 ， 我 也 表示 非常 抱歉 。 无 锁 算法 
的 介绍 并 没有 问题 ， 但 这 次 讲解 的 代码 却 有 几 个 问题 ， 所 以 我 不 建议 大 家 把 这 一 节 的 代码 用 在 
自己 的 项 目 中 。 

第 一 个 问题 是 ABA 问题 。 本 节 使 用 的 无 锁 算 法 为 了 判断 操作 过 程 中 数据 是 否 已 被 修改 ， 
采取 了 以 下 做 法 : 如 果 使 用 CAS 检测 出 当前 的 值 与 本 次 操作 前 的 值 不 同 ， 就 认为 在 操作 过 程 中 
数据 被 其 他 线程 修改 过 ， 要 重新 进行 处 理 ， 具 体 过 程 如 下 所 示 。 
































































































































ES 


. 线程 1: 保存 旧 值 ， 开 始 修改 处 理 
. 线程 2: 在 线程 1 还 在 处 理 的 过 程 中 修改 数据 ， 完 成 处 理 





N 





















































3. 线程 1: 检查 旧 值 是 否 发 生 了 变化 ， 如 果 已 变化 ， 则 重新 进行 处 理 
可 是 ， 如 果 线 程 2 修改 的 旧 值 在 free() 之 后 又 通过 malloc () 被 重新 使 用 ， 那 么 修改 的 
值 就 有 可 能 和 旧 值 相同 。 虽 然 这 种 可 能 性 很 低 ， 但 并 不 代表 没有 。 在 这 种 情况 下 ， 无 锁 算法 就 





















































8 
无 法 检测 出 数据 是 否 被 其 他 线程 修改 过 ， 这 就 是 ABA 问题 。 发 生 ABA 问题 时 ， 数 据 的 完整 性 
可 能 会 遭 到 破坏 。ABA 问题 在 无 锁 栈 上 频繁 发 生 ， 在 队列 上 也 会 发 生 。 
解决 这 个 问题 的 方法 有 几 种 ， 其 中 一 种 是 使 用 名 为 风险 指针 (hazard pointer ) 的 数据 结构 。 
风险 指针 用 于 延迟 释放 还 在 用 的 值 ， 在 值 被 引用 时 ， 地 址 不 能 被 重复 利用 ， 所 以 值 不 会 发 生 冲 
突 。 另 一 种 做 法 是 使 用 GC。GC 不 会 重复 利用 还 在 使 用 的 指针 ， 所 以 也 可 以 避 开 ABA 问题 。 
现在 还 不 能 确定 是 否 是 ABA 问题 导致 了 无 锁 算 法 的 实现 出 现 问题 ， 但 可 以 确定 的 是 本 节 
介绍 的 代码 在 高 负荷 运行 时 会 发 生 数 据 遗 漏 的 情况 。 这 也 是 不 建议 大 家 使 用 本 节 代 码 的 原因 。 
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前 面 几 









































态 管 理 ， 所 以 我 们 也 要 实现 “内 置 数据 库 ”。 
































节 介 绍 的 都 是 语言 处 理 器 的 实现 的 相关 内 容 ， 从 这 一 节 开 始 我 们 来 聊 聊 如 何 强 
化 库 。 本 节 将 探讨 如 何 用 Streem 实 现 CSV 数 据 的 处 理 和 打 方 块 游戏 。 由 于 需要 进行 状 




















管道 编程 是 Streem 的 一 个 特点 ， 它 与 普通 的 编程 方式 有 很 大 不 同 。 以 前 我 简单 介绍 过 管道 编 
f 





程 的 方式 ， 这 次 我 们 来 更 加 具体 地 探讨 一 下 如 何 用 管道 去 姑 


编程 有 一 个 新 的 认识 。 











F 发 各 种 类 型 的 处 理 ， 也 许 会 让 你 对 管道 








我 在 前 面 介绍 过 构成 任务 管道 的 典型 模式 ， 当 时 介绍 了 以 下 几 种 。 























e 生产 者 - 消费 者 模式 
e 轮 询 调度 模式 
广播 模式 

e 汇总 模式 

e 请 求 - 应答 模式 





























当时 没有 深入 讲解 具体 的 程序 ， 所 以 大 家 可 能 
印象 不 深 ， 这 次 我 们 就 来 深入 了 解 一 下 。 





数据 统计 








Streem 最 擅长 的 就 是 进行 统计 处 理 。 读 和 数据、 
选择 符合 条 件 的 数据 、 加 工 数据 以 及 统计 数据 等 都 
可 以 轻松 地 用 管道 来 编写 。 

下 面 我 们 以 CSV 数据 为 对 象 进行 一 些 简单 的 统 
计 处 理 。 

假设 我 们 有 如 图 5-1 Pros 83 CSV 数据， 其 中 列 
出 了 各 种 编程 语言 及 其 发 布 年 份 和 作者 。 

我 们 试 着 从 这 个 列表 中 选 出 在 21 世纪 发 布 的 语 
言 ， 相 应 的 Streem 程序 如 图 5-2 所 示 。 

在 这 个 列表 中 ,诞生 于 21 世纪 的 语言 有 Clojure, 



































I 





year, 


BOIS 


1959 


BOIS 


2007 


5-1 


name,designer 


,Ruby,Yukihiro Matsumoto 
DOS 
T1991, 
1995F 


Perl,Larry Wall 
Python,Guido van Rossum 
PHP,Rasmus Lerdorf 


,bISP,John McCarthy 
EOD 
1980, 


Smalltalk,Alan Kay 


Haskell,Simon Peyton Jones 


,JavaScript,Brendan Eich 
T3957 
1993. 
DB 


Java,James Gosling 
Lua,Roberto Ierusalimschy 
Erlang,Joe Armstrong 


,Clojure,Rich Hickey 
2003, 
203.2), 


Scala,Martin Odersky 





Elixir,José Valim 


编程 语言 列表 
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Scala 和 Elixir 这 3 种 。 虽 然 我 很 想 把 Streem 加 到 这 个 列表 里 ， 但 Streem 还 没有 达到 实用 的 程度 ， 
所 以 我 这 么 想 就 有 些 镍 妄 自 大 了 。 














fread("lang.csv")|csv()|filter(x-»x.year»2000]|stdout 


5-2 选 出 21 世纪 诞生 的 语言 的 Streem 程序 


那么 ，20 世纪 诞生 的 语言 有 多 少 种 呢 ? 这 个 列表 包含 的 数据 并 不 多 ， 我 们 自己 也 能 数 得 过 来 ， 
但 如 果 数 据 量 很 大 ， 就 需要 通过 程序 进行 统计 了 。 统 计 元 素 的 个 数 时 使 用 count () 函数 (图 5-3 )。 









































fread("lang.csv")|csv()|filter(x-»x.year«2001)|count () | s£dout 


图 5-3 对 20 世纪 诞生 的 语言 的 数量 进行 统计 的 Streem 程序 
在 这 个 列表 中 ， 诞 生 于 20 世纪 的 语言 有 11 种 。 果 然 ，Streem 很 擅长 进行 这 样 的 处 理 。 

















Web 服务 与 管道 


不 过 ，Streem 并 不 是 专门 用 来 统计 数据 的 语言 。 管 道 编程 也 可 以 用 于 CS V. 统计 以 外 的 场景 ， 
比如 可 以 用 在 Web 技术 上 。 

现在 的 很 多 软件 都 是 使 用 Web 技术 开发 的 ， 通 过 CD 和 DVD 等 媒介 在 计算 机 上 安装 的 软件 已 

很 少 了 ， 大 多 数 软件 要 通过 浏览 器 访问 ， 就 连 商用 软件 也 都 是 使 用 Web 技术 开发 的 。 
aa A 不 过 这 些 应 用 一 般 
也 是 使 用 HTTP 协议 从 服务 器 端的 API aped 



























































因此 ， 不 管 是 在 手头 的 设备 上 安装 应 用 ， 还 是 通过 浏览 器 访问 服务 器 端 软 件 ， 现 在 基本 上 都 离 
不 开 Web 技术 。 
HTTP 的 软件 构成 
网 络 





以 HTTP 为 中 心 的 软件 构成 如 图 5-4 所 示 。 

首先 ， 客 户 端 向 服务 器 端 发 送 请 求 。 服 务 器 端 根据 
请 求 进行 处 理 ， 然 后 把 结果 返回 给 客户 端 。 虽然 从 严格 
意义 上 讲 还 有 很 多 特殊 的 情况 ， 但 HTTP 基本 上 就 是 这 
种 简单 的 请 求 - 应 答 模式 。 ST 






































(D 最早 的 iPhone 里 还 没有 应 用 ， 所 有 软件 都 需要 通过 浏览 器 访问 。 应 用 出 现 以 后 ， 智 能 手机 就 发 生 了 与 计算 机 完全 
相反 的 变化 ， 很 有 意思 。 
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K 5-1 中 列 出 了 HTTP 的 请 求 类 型 。 表 5-1 HTTP 的 请 求 类 型 

在 考虑 通过 HTTP 访问 API 的 情况 下 ， 理 
想 的 做 法 是 把 对 服务 器 的 请 求 当 成 数据 库 操 作 ， GET 获取 获取 页 面 信息 
然后 按照 表 5-2 的 方式 进行 。 我 们 把 对 数据 库 的 。” PUT 修改 文件 上 传 等 


























CREATE, READ, UPDATE 和 DELETE 操作 简称 POST ”创建 信息 在 请 求 体 部 分 的 表单 里 
IER IRA 
JJ CRUD. DELETE ”删除 删除 资源 


HEAD 请 求 头 只 获取 请 求 头 信息 


4 BB qu An 
服务 器 端 架构 表 5-2 与 数据 库 操作 相对 应 HTTP 请 求 


在 图 5-4 的 构成 HTTP 的 软件 中 , 我们 重点 “人 ES 























看 一 下 服务 器 端 软件 ， 服 务 器 端 软 件 的 构成 如 CREATE 创建 POST 
图 5-5 所 示 。 客 户 端的 连接 管理 、HTTP IR 获取 GET 
语法 分 析 、 进 程 管理 等 主要 由 HTTP 服务 器 负 ERIT 
E Bep il , , DELETE 删除 DELETE 








责 。 服 务 咒 端 软件 拿 到 解析 好 的 信息 之 后 开始 进 

行 处 理 ， 然 后 将 结果 返回 给 HTTP 服务 器 。 之 后 ，HTTP 服务 器 

拼装 HTTP 应 答 ， 并 将 其 送 还 给 客户 端 。 ( Apache. Nginx& ) 
也 就 是 说 ， 从 服务 需 端 程序 的 层面 来 看 ， 整 个 处 理 的 过 程 


是 : 收 到 HTTP 请 求 的 信息 之 后 对 数据 进行 加 工 ， 然 后 把 结果 作 
为 HTTP 应 答 返 回 。 这 个 处 理 也 可 以 用 管道 来 编写 。 
我 们 以 一 个 简单 的 ToDo 程序 作为 示例 。 认 证 等 由 HTTP 服 


务 需 执行 ， 服 务 器 端 软 件 负 责 接 收 “ 显 示 ”“ 创 建 ”“ 修 改 ”“ 删 55 ”服务 器 端 软件 的 构成 
除 ” 这 4 个 处 理 。 

这 些 处 理 依照 前 面 介绍 的 CRUD 规则 ， 分 别 按 GET, POST, PUT 和 DELETE 这 4 种 请 求 类 型 
接收 ， 代 码 如 图 5-6 所 示 。 图 5-6 虽然 是 Streem 的 代码 ， 但 由 于 支持 HTTP 的 库 还 没有 完成 ， 所 以 
这 只 能 算是 预想 中 的 代码 。 

render () 函数 用 于 创建 向 客户 端 发 送 的 数据 ， 不 过 图 5-6 中 没有 显示 render () 函数 的 内 
容 。 大 家 可 以 把 它 想 象 为 一 个 根据 状态 ( 成 功 或 失败 ) 和 用 户 ID 来 创建 应 该 显示 的 内 容 的 HTML 
( API 的 情况 下 就 是 JSON ) 的 函数 。 

render() 创建 的 结果 ( 用 于 显示 的 数据 ) 会 传 给 http_response () ， 然 后 再 从 这 里 发 送 
给 HTTP 服务 器 。 

图 5-6 的 程序 虽然 是 伪 代 码 ”, 但 是 通过 这 个 例子 , 相信 大 家 也 掌握 了 一 些 使 用 管道 编写 普通 程 
序 的 方法 。 
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(D Streem 的 周边 库 还 没有 达到 实用 的 程度 ， 对 此 我 感到 非常 抱歉 。 
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db = kvs() 
mio regqtest O | mapireg => 
4i (weg.tyoe == “GETY) 4 # 显示 
emit :ok 
j 
else if (zeg.type == “POSTY 1 # 创建 
clos ptt (reg. todo io; [reg title; reg. cue] ) 
emit :ok 
j 
else if (req.type == "PUT") ( # 修改 
chg. ptt (eg todo sol, [reg title, rear ciel) 
emit :ok 
J 
else if (req.type -- "DELETE") ( 4 mu 
chg, ptt (rec todo rely mal) 
emit [:ok, req.user] 
} 
else 7 # 其 他 ( 错误 ) 
emit :error 
} 
y | zemci) | lup response) 


图 5-6 使 用 Streem 开发 的 服务 器 端 软件 


电子 游戏 的 示例 


我 们 再 来 考虑 一 个 看 起 来 很 难 用 管道 编写 的 例子 ， 比 如 编写 一 个 打 方 块 那样 的 
遗憾 的 是 ， 现 在 还 不 能 
已 经 存在 ， 以 此 来 继续 我 们 的 话题 。 
那么 如 何 用 管道 编写 电子 游戏 呢 ? 方法 有 很 多 。 这 次 我 想到 的 方法 是 准备 3 个 管 





图 5-7 所 示 。 


# 更 新 频率 ( 
fps = 30 

# 更 新 闻 隔 
tick 








board 


re 


E 




















电子 游戏 。 





























] Streem 开发 电子 游戏 ， 所 以 我 们 假定 实时 键盘 输入 和 图 形 输 出 的 库 





秒 30 次 ) 


1/fps*1000 
# 保存 游戏 状态 的 内 存 数据 库 
kvs () 











T 


道 ， 具 体 如 
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kvs.put(:paddle x, 0) 
Dewey oote (slesal ll > MOD) 
kvs.put(:ball y, 0) 

lev em ue onl se way, 10) 
kvs.put(:ball y vec, 1) 
kvs.put(:num balls, 5) 
key event() | each{x -> 

if (x == "LEFT") ( 


board.update(:paddle x, {x -> x-1]) 


} 
eise (ae s nem dq 
board.update(:paddle x, [x -> x«1]) 


timer tick(tick) | each{x -> 
# 更 新 球 的 位 置 


z Vea bosse (abell, = vee) 





y vec - board.get(:ball y vec) 
x - board.update(:ball x, (x -» x « x vec]) 


Y 


board.update(:ball y, {y -> y + y vec]) 


# 碰撞 检测 
if (x == 0) { # 球 到 最 下 面 了 
if (ball hit paddle()) ( 
board.update(:ball x vec, (x -> -x]) 























board.update(:ball y vec, (y -> -y}) 


) 

else ( # 掉 下 去 了 
n = board.update(:num balls, {n -> n-1]) 
if n == 0 { 


game over() 


) 
else abe Qi fele Jolexe()) d 
erase block() 
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timer tick(tick) | each{x -> 
# 图 形 输 出 
display board() 


} 














图 5-7 打 方 块 

第 1 个 管道 接收 用 户 的 输入 ， 更 新 玩家 球 和 托 球 的 板 ) 的 位 置 。 

第 2 个 管道 定期 被 调用 ， 更 新 各 个 物体 ( 球 的 位 置 和 方块 的 状态 )。 

第 3 个 管道 把 更 新 结果 输出 为 图 形 。 
通过 像 这 样 分 割 为 几 个 管道 来 编写 ， 可 以 使 每 个 管道 的 处 理 都 非常 简单 ， 易 于 理解 ， 也 更 容易 
维护 。 

这 个 实现 的 关键 点 在 于 把 处 理 分 为 多 个 管道 ， 以 及 把 游戏 的 状态 保存 到 内 存 数据 库 。 




































































不 可 变 与 状态 





Streem 的 一 大 特点 是 数据 结构 不 可 变 (不 能 修改 )， 这 个 特点 给 程序 的 编写 带 来 了 不 少 麻 烦 。 

基本 不 带 副 作用 的 纯 函 数 式 语言 Haskell 使 用 “单子 ”( monad ) 结构 来 管理 状态 变更 等 有 副 作 
用 的 处 理 ， 不 过 老实 说 ， 并 不 好 用 。 

数据 结构 同样 不 可 变 的 Erlang 是 以 Actor 模型 为 基础 的 语言 ， 它 使 用 两 种 方法 来 管理 状态 。 一 
种 方法 是 把 状态 封闭 在 独立 运行 的 进程 里 ， 通 过 与 进程 相互 收发 消息 来 进行 状态 的 修改 和 读 取 。 这 
种 方法 虽然 巧妙 ， 但 不 适合 Streem 这 种 没有 显 式 的 进程 《和 线程 ) 的 语言 。 

另 一 种 方法 是 使 用 ETS 和 Mnesia 等 内 置 在 Erlang 语言 处 理 器 中 的 数据 库 。 也 就 是 说 ， 即 使 普 
通 的 数据 结构 不 可 变 ， 数据库 这 种 专门 用 来 保存 状态 的 数据 结构 也 是 可 以 修改 的 。 

这 对 于 习惯 了 普通 编程 的 人 来 说 也 非常 容易 理解 。 实 际 上 本 节 的 ToDo 程序 和 打 方 块 程序 就 是 
使 用 数据 库 来 实现 可 修改 的 状态 的 。 




























































































BARA RAGER kvs 





考虑 到 这 些 ， 就 需要 在 Streem "5 LAG AGXBGSPE T o Clojure 语言 的 数据 结构 在 原则 上 也 是 
不 可 变 的 ， 但 该 语言 使 用 STM (Software Transactional Memory， 软 件 事务 内 存 ) 的 方式 实现 了 可 修 
改 的 状态 。 事 务 是 维持 数据 完整 性 的 方法 ，Clojure 就 使 用 事务 来 维持 数据 结构 的 完整 性 。 

虽然 Streem 处 理 器 引入 的 舰 入 式 数 据 库 的 细节 部 分 还 有 待 商 榨 ， 不 过 我 还 是 先 开发 了 一 个 名 
为 kvs 的 简易 数据 库 。 

kvs 是 一 个 简单 的 键 值 存储 库 (key value store )， 其 功能 如 表 5-3 所 示 。 

这 里 只 需要 对 update 的 行为 加 以 说 明 。updaate 把 键 和 函数 当成 参数 。 冰 数 把 旧 值 当 成 参数 
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接收 ， 它 的 返回 值 会 成 为 新 值 。 

然后 tnx 函数 开始 事务 处 理 ， 执 行 作为 参数 
接收 到 的 函数 。 这 个 函数 接收 表示 事务 的 对 象 。 
事务 与 数据 库 的 行为 相同 ， 事务 结 束 时 ， 对 事务 
的 修改 会 更 新 到 数据 库 。 如 果 在 事务 开始 之 后 修 
改 了 数据 库 中 的 数据 ， 从 而 产生 了 冲突 ， 那 么 就 
放弃 前 面 的 修改 ， 从 头 开 始 执行 事务 函数 。 如 果 
事务 函数 运行 过 程 中 发 生 了 错误 ， 那么 就 放弃 
事务 中 到 此 为 止 的 修改 ,然后 再 次 抛 出 错误 。 
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Ilin, 





kvs 的 实现 


接 下 来 我 们 就 开始 实现 kvs。 我 强调 过 很 多 次 ， 
等 问题 ， 我 们 要 尽快 让 实现 满足 运行 的 需求 。 当 然 ， 








表 5-3 kvs 的 功能 


API 作用 

db = kvs() 打开 内 存 数 据 库 
db.put(key, val) 设置 数据 

db .get (key) 获取 数据 
db.update(key, f) 修改 数据 
db.txn (f) 事务 
db.close() 关闭 数据 库 


让 实现 动 起 来 是 最 重要 的 。 这 里 先 不 考虑 性 能 
这 个 实现 在 实际 使 用 过 程 中 会 暴露 一 些 性 能 问 























题 ， 存 在 需要 改进 的 地 方 。 到 那 时 我 们 再 细致 地 测试 一 番 ， 在 明确 问题 出 现 的 原因 之 后 进行 改善 。 





设计 、 实 现 、 测 试 和 改善 是 软件 开发 的 金 规 铁 律 。 











我 想 尽 快 实现 kvs。 幸 运 的 是 ，Streem 在 实现 中 采用 了 内 存 上 的 键 值 存储 库 khash (虽然 只 








是 散 列表 )， 我 就 暂时 用 它 来 实现 kvs。 








khash 

















khash 是 C 语 言 使 用 的 散 列表 库 ， 以 MIT 许可 证 提供 。khash 最 大 的 特点 是 仅 由 头 文件 组 
Wü. fH khash 时 要 包含 (include) khash.h 头 文件 ， 使 用 宏 来 声明 要 使 用 的 散 列 表 。 访 问 用 














的 函数 等 也 通过 宏 来 定义 。 



































比如 可 以 像 图 5-8 那样 ， 定 义 一 个 键 为 Streem 的 字符 串 、 值 为 任意 Streem 数据 的 kvs 的 散 列 
表 。KHASH INIT 是 定义 散 列 表 的 宏 ， 这 个 宏 有 6 个 参数 ， 其 含义 如 表 5-4 DR. 


dinclude "strm.h" 
#include "khash.h" 


KHASH INIT(kvs, strm string, strm value, 
kh inte64 hash func, kh int64 hash equal); 


图 5-8 kvs 的 散 列 表 的 定义 


1, 


表 5-4 KHASH INIT 的 参数 


(er SS a E C0 一 








name 散 列表 名 

khkey t 键 的 类 型 

khval t 值 的 类 型 

kh is map map (1) set (0) 
hash func 键 的 散 列 函数 
hash equal 键 的 比较 函数 











散 列 表 名 是 散 列 表 结 构 体 的 名 称 。 散 列表 通过 





图 5-8 定义 的 散 列 表 的 程序 如 图 5-9 所 示 。 


图 


ssi car, de MEI 
briter 1E den 

strm string key - 
strm string key2 - 


khash t(kvs) *h - kh init(kvs); 














/* 使 用 kh_put 获 取保 存 位 置 */ 

ke tchat cvs ey es 

/* 通过 向 kh value () 赋值 来 实际 保存 数据 */ 

kh value(h, k) - strm int value(10); 

/* 使 用 kh get 获取 访问 位 置 */ 

iste tX (vp ne ey 

/* 如 果 没 有 值 ，k 为 kn end ( 最 后 的 位 置 ) */ 

值 ， 使 用 kh value () 获取 值 */ 

de mea = (k == Wan eal ) p 

/* 通过 循环 kh begin() 到 kh end() */ 

/* 可 以 查找 所 有 的 元 素 。 由 于 也 =” ay 

/* 在 访问 元 素 之 前 需要 用 kh_exist () 检查 */ 

Fee (s = idm leen) b l= qut) 
if (kh exist(h, k) 

kh value(h, k) - 































































































































































































Seain iae velee te 























/* 使 用 kh destroy () 销毁 散 列 表 */ 
kh destroy(kvs, h); 
return 0; 

) 

5-9 访问 散 列 表 


Emma rte DURooU 
strm str intern("bar", 


*khash t (名称) 


EE, 
OE 


k++) 


) 5 
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一 类 型 来 访问 。 访 问 


244 | 第 5 章 强化 流 编程 

















使 用 khash 时 非常 方便 ， 只 需 引 用 头 文件 即 可 。 如 果 大 家 有 机 会 用 C 语言 开发 程序 ， 建 议 使 
用 这 个 库 。 不 过 它 的 API 比较 特殊 ， 需 要 花 一 些 时 间 去 熟悉 。 








D) 














使 用 khash 实现 kvs 

















讲 到 这 里 ，( 如 果 是 最 简单 的 实现 的 话 ) 开发 键 值 存 储 库 就 很 简单 了 。 图 5-10 摘录 了 kvs 实现 
的 最 初 的 核心 代码 。 

ns 成 员 保存 了 用 strm state 结构 体 表示 的 命名 空间 ， 用 来 代替 面向 对 象 语言 的 类 。 我 们 只 
要 注意 到 这 一 点 ， 就 不 会 觉得 内 容 太 难 了 。 























struct strm kvs ( 
STRM PTR HEADER; 
khash t(kvs) *kv; 


所 





Static khash t (kvs)* 
get kvs(int argc, strm value* args) 
{ 


struct strm kvs *k; 


e anserum — O M Cuts TOT IHE 
k = structostrmekvs*)strmavaluespbr(argsilol S SWAY BIR KVS) y 


return k->kv; 


Static int 

kvs get(strm task* task, int argc, strm value* args, strm value* ret) ( 
kiasa Ekv) y = Get eva large, arc) p 
strm string key = strm str intern str(strm to str(args[11)); 
laast ene 35 


Le ka geele, ve 


a i ee a cxelmw)) A 
Sree = erm mil spud) p 

} 

else { 


Sret = ka velte (sr, 1y 


} 


return STRM OK; 
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Static int 

kye Clogs lettu task task, lme ergo, Serin velves args; Serm valuas ret) { 
khash t(kvs)* kv = get kvs(argc, args); 
kh destroy(kvs, kv); 
return STRM OK; 


Static strm state* kvs ns; 


Satelit 
kvs new(strm task* task, int argc, strm value* args, strm value* ret) { 


struct strm kvs *k - malloc(sizeof(struct strm kvs)); 


if (!k) return STRM NG; 
k-»ns - kvs ns; 
k-»type - STRM PTR KVS; 
k=alsy = idn mibe (eve) p 
sreg = pren per valves); 
return STRM OK; 





void 
strm kvs init(strm state* state) { 
kvs ns = strm ns new (NULL); 


strm var def(kvs ns, "get", strm cfunc value(kvs get)); 


strm var def(kvs ns, "put", strm cfunc value(kvs put)); 

strm var def(kvs ns, "update", strm cfunc value(kvs update)); 
strm var def(kvs ns, "txn", strm cfunc value(kvs txn)); 
stmm&vearedetc:vsanspellosel' e stiemgctuncemvauelevsmcllese) 
emer state MESI trm itum eletti Mim ew) 


图 5-10 kvs 的 早期 实现 ( 摘录 ) 


并 发 控制 


但 是 这 种 简单 的 实现 还 不 够 实用 ， 因 为 还 没有 在 多 线程 、 多 任务 的 Streem 语言 中 进行 必 不 可 
少 的 并 发 控制 。 
比如 在 修改 散 列 表 的 过 程 中 ， 如 果 有 其 他 线程 尝试 读 取 数据 ， 可 能 就 会 读 出 不 存在 的 数据 。 如 
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果 在 写 人 数据 时 发 生 冲突 ， 数 据 结构 就 可 能 遭 到 破坏 。 
要 避免 这 样 的 问题 ， 就 需要 进行 并 发 控制 。 方 法 有 很 多 种 ， 这 次 我 使 用 了 锁 和 事务 来 进行 并 发 
控制 。 























使 用 锁 进 行 并 发 控制 


使 用 锁 进 行 并 发 控制 的 方法 比较 简单 。 为 每 个 散 列表 准备 一 个 pthread_mutex_t 锁 ， 在 访 
问 共 享 的 数据 结构 ( 这 次 是 散 列表 ) 的 代码 前 后 ， 用 下 面 的 函数 围 起 来 。 























pthread mutex lock() 
pthread mutex unlock() 


这 样 做 至 少 可 以 避免 数据 被 破坏 。 





事务 的 实现 


但 是 对 散 列 表 这 样 的 数据 库 来 说 ， 仅 仅 通过 锁 来 保护 数据 不 被 破坏 ， 有 时 候 是 不 够 的 。 

这 是 因为 在 多 个 线程 同时 写 和 时， 即使 数据 库 本 身 没有 损坏 ， 有 时 也 无 法 保持 数据 的 完整 性 。 
比如 ， 在 从 银行 账户 A 向 账户 B 汇款 的 过 程 中 ， 如 果 因 为 正好 有 男 一 笔 汇款 在 进行 而 导致 本 应 汇 
到 账户 B 的 钱 消失 了 ， 那 就 成 了 大 问题 。 

为 了 避免 这 样 的 情况 出 现 ， 数 据 库 采用 了 事务 这 一 方法 。 事务 可 以 保证 操作 结果 为 以 下 3 种 情 
BL: 成 功 修 改 了 一 系列 的 状态 ; 发 生 冲 突 时 重新 操作 ; 失败 之 后 将 状态 恢复 为 事务 开始 前 的 状态 。 

kvs 使 用 txn 函数 实现 了 事务 。txn 男 数 开始 事务 ， 把 事务 对 象 作 为 参数 传递 给 作为 参数 传 
来 的 函数 。 事 务 对 象 与 普通 的 kvs 数据 库 的 行为 相同 ， 在 事务 结束 时 ，( 如 果 操 作成 功 ) 向 数据 库 
写 人 数据 。 
事务 的 实现 非常 复杂 ， 由 于 篇 幅 的 关系 ， 这 里 不 再 详细 讲述 ， 请 读者 参考 github.com/matz/ 
streem 上 的 src/kvs.c 源 代码 。 










































































小 结 


本 节 介绍 了 Streem 的 管道 编程 ， 另 外 还 实现 了 对 状态 变化 的 管理 来 说 非常 重要 的 kvs 数据 库 。 
Streem 就 是 这 样 一 点 一 点 地 变 实用 的 ， 这 也 是 连载 和 语言 开发 同时 进行 的 乐趣 所 在 。 
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时 光 机 专栏 
应 该 有 的 功能 还 是 要 实现 的 




















本 节 是 2016 年 3 月 刊 中 刊登 的 内 容 ， 探 讨 了 如 何 用 Streem 特色 之 一 的 管道 编程 来 编写 
代码 。 

Streem 也 好 ， 极 大 地 影响 了 Streem 的 函数 式 语 言 也 好 ， 都 存在 可 以 发 挥 它们 特长 的 领 
域 ， 在 这 些 领域 中 能 够 优雅 地 编写 程序 。 介 绍 这 些 语言 的 书 也 喜欢 拿 这 些 领域 的 问题 作 例子 ， 
解释 如 何 用 这 些 语言 优雅 地 解决 问题 。 
但 是 我 们 开发 者 平时 遇 到 的 很 多 问题 都 不 能 优雅 地 解决 。 不 对 ， 是 能 够 解决 ， 但 是 否 优雅 
就 是 另外 一 回 事 了 。 不 习惯 的 人 会 觉得 很 多 问题 都 不 能 直接 解决 ， 可 要 是 每 解决 一 种 类 型 的 问 
题 就 换 一 门 语言 ， 那 成 本 ( 主要 是 精神 上 的 ) 就 太 高 了 。 
相 比 较 而 言 ，Streem 不 是 通用 语言 ， 而 是 管道 编程 专用 语言 ， 所 以 可 以 不 用 那么 担心 。 
但 即便 如 此 ， 一 门 语言 能 做 的 也 肯定 是 越 多 越 好 。 
于 是 ， 本 节 以 Streem 可 以 开发 各 种 程序 为 前 提 ， 探 讨 了 很 多 内 容 。 探 讨 的 结果 就 是 使 用 
内 存 数 据 库 kvs。 引 入 数据 库 的 目的 是 让 变量 可 以 在 语法 层面 进行 修改 ， 从 而 使 实现 变 简单 ， 
但 这 么 做 又 显得 有 些小 题 大 做 。 不 过 看 过 Clojure 的 尝试 之 后 ， 我 觉得 这 种 做 法 也 是 可 以 接受 
的 。 虽然 这 次 没有 考虑 性 能 ， 但 我 想 本 次 的 实现 在 一 定 程度 上 也 体现 了 这 一 理念 的 有 效 性 。 

关于 在 本 节 的 示例 代码 中 出 现 的 函数 群 ， 除 了 kvs 之 外 ， 都 是 还 没有 实际 提供 的 函数 ， 




















































































































































































































































































































































































































比如 http request(). key event() 和 timer tick() 等 。 我 发 现 要 想 用 Streem 开发 
出 实用 的 程序 ， 就 需要 大 量 提 供 这 种 工具 函数 。 在 今后 的 连载 中 ， 我 将 继续 探讨 和 实现 这 些 
函数 。 


















































EB BU TAI FX, 2 zs 


5-1 节 进行 了 管道 编程 的 实践 ， 开 发 了 管道 编程 的 重要 构成 要 素 kvs。 本 节 将 继续 探讨 
























































管道 编程 的 实践 所 需要 的 构成 要 素 ， 并 集 齐 必要 的 工具 。 在 整理 完 概念 之 后 ， 我 将 大 
幅 修 改 实现 的 代码 。 























Streem 开发 到 现在 ， 我 注意 到 一 个 问题 ， 就 是 当初 临时 起 的 一 些 名 字 与 其 实际 代表 的 东西 并 不 
相符 。 

比如 Streem 中 有 一 个 很 重要 的 结构 体 ， 名 叫 stzm_task， 但 是 在 Streem 的 语言 层面 并 不 存 
在 “任务 ”这 个 概念 。 这 个 “任务 ”到 底 表示 什么 , 我 本 人 也 有 点 记 不 清 了 。 实 现 上 的 概念 和 语言 
上 的 概念 发 生 了 偏离 ， 怎 么 看 都 觉得 不 协调 。 

这 几 个 月 我 一 直 在 想 这 个 不 协调 的 问题 。 为 了 彻底 搞 清楚 管道 编程 ， 我 想 先 对 概念 进行 一 次 
整理 。 

















管道 的 构成 要 素 


我 们 再 次 对 Streem 管道 中 的 构成 要 素 进 行 梳理 ， 


imi 


要 的 是 以 下 4 个 概念 。 

















。 管 首 
`% 
L 


ej 





e 任务 


€ worker 











其 中 最 重要 的 概念 是 流 。 流 是 促成 数据 流转 的 处 理 。 流 中 包含 产生 数据 的 生产 者 、 接 收 数据 并 
对 其 进行 加 工 的 过 滤器 ， 以 及 接收 数据 进行 消费 的 消费 者 3 种 角色 。 作 为 编程 模型 ， 流 结合 在 一 起 
之 后 还 是 流 ， 但 是 在 语言 处 理 器 的 层面 上 ， 则 用 strm stream 结构 体 表 示 一 个 处 理 。 

从 生产 者 开始 到 消费 者 为 止 ， 被 串 起 来 的 流 称 为 管道 。 由 于 Streem 的 语言 处 理 器 中 (目前) 
没有 处 理 管道 的 部 分 ， 所 以 它 还 只 是 停留 在 概念 上 。 

负责 处 理 流 中 的 一 份 份 数据 的 是 任务 。Streem 处 理 器 分 别 用 一 个 C 函数 来 表示 任务 的 处 理 。 每 
当 流 向 下 一 个 阶段 emit 数据 时 ， 就 把 任务 结构 体 添 加 到 运行 队列 ， 预 定 将 来 运行 这 个 任务 。 

worker 指 的 是 运行 任务 的 线程 。Streem 处 理 器 会 生成 与 计算 机 CPU 内 核 数 数量 相同 的 worker。 
worker 从 队列 的 前 面 开 始 依次 取出 任务 并 运行 。 
































5-2 ”管道 的 构成 要 素 | 249 





全 局 范围 重 命名 表 5-5 修改 名 称 
HA RREN 
既然 概念 已 经 整理 完毕 ， 接 下 来 就 开始 对 源 代 攻 aaSEEALESESR e 
码 进行 相应 的 修改 吧 。 我 修改 了 Steem 代码 的 结构 “变量 task ET 


体 名 、 函 数 名 和 变量 名 等 ， 具 体内 容 如 表 5-5 所 示 。 结构 体 strm thread strm worker 

实际 上 在 core.c 和 queue.c 实现 的 事件 处 理 代码 中 ， 有 一 个 名 为 strm_queue_task 的 结构 
体 ， 它 与 strm_task 的 名 称 相似 ,但 二 者 毫 无 关系 ， 这 个 结构 体 就 相当 于 这 次 概念 整理 后 的 任 
务 。 这 部 分 的 代码 也 被 大 幅 修 改 ， 我 会 在 后 面 加 以 讲解 。 

一 般 来 说 ， 大 规模 修改 源 代码 中 出 现 的 名 称 ， 会 导致 软件 丧失 兼容 性 。 尤 其 是 开源 软件 ， 改 名 
伴随 的 风险 非常 大 。 

Ruby 在 开发 早期 也 大 规模 地 修改 过 名 称 。 当 时 为 了 避免 与 其 他 库 的 名 称 重复 ， 就 在 Ruby 的 名 
称 中 统一 加 上 了 “rb_” 前 级 。 这 是 将 近 二 十 年 前 的 事 了 。 尽 管 当时 的 用 户 很 少 ,， 但 还 是 接连 出 现 
了 库 不 能 正常 工作 等 情况 ， 给 我 留 下 了 一 段 辛酸 的 回忆 。 

至 于 Streem， 由 于 它 缺 乏 实 用 性 ， 几 乎 没有 人 使 用 ， 而 且 也 没有 提供 扩展 用 的 API， 所 以 可 以 
随心 所 欲 地 修改 名 称 。 为 了 使 实现 变 得 更 好 ,今后 我 可 能 还 会 大 幅度 地 对 名 称 进行 修改 。 

























































































增加 调试 用 的 strm_p() 


我 们 顺便 再 增加 一 个 功能 。 

引入 NaN Boxing 之 后 ，Streem 的 对 象 就 都 可 以 用 64 位 整数 表示 了 。 虽 然 NaN Boxing 的 运行 
效率 很 高 ， 但 由 于 看 不 到 内 部 情况 ， 调 试 时 非常 麻烦 。 因 此 ， 我 在 调试 器 中 增加 了 显示 对 象 内 部 情 
况 的 strm p() PAZ. 

strm p() 的 实现 很 简单 (图 5-11 )。 只 需要 使 用 strm to str O 函数 将 作为 参数 传 过 来 的 
对 象 转换 为 字符 串 对 象 ， 然 后 用 strm str cstr O 函数 取出 C 的 字符 串 指 针 ， 最 后 用 fputs O 
显示 到 标准 输出 即 可 。 












































strm value 

strm p(strm value val) 

{ 
char bufIT7]; 
strm string str - strm to str(val); 
CongE Clere D cttm tlf rtr etra MTS v y 
fputs(p, stdout); 
icroxbue re CAm Scovel; 
return val; 


5-11 显示 对 象 内 部 情况 的 strm p() 函数 
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这 里 需要 稍微 说 明 一 下 strm str _cstr() 函数 的 buf 参数 。 由 于 Streem 的 NaN Boxing 会 
把 6 个 字符 以 下 的 短 字 符 串 直接 保存 在 strm_value 中 ， 所 以 无 法 取出 字符 串 指针 。 因 此 ， 在 复 




















制 这 样 的 字符 串 内 容 时 就 需要 buf 空间 。 由 于 保存 的 字符 串 最 大 为 6 
占用 的 空间 ， 所 以 buf 最 少 需要 7 字 节 大 小 。 


NUL 











另外 ， 我 还 准备 了 能 够 为 每 个 对 象 定制 字 





/es r] 


f 





to str() PK, CIEE SKAER RTF B 




























































































管道 编程 的 模式 
在 5-1 节 开 发 的 管道 编程 有 以 下 3 种 模式 。 
e 生产 者 生产 的 数据 经 过 过 滤器 加 工 ， 
1 消 费 者 输 出 
e 生产 者 生产 的 数据 经 过 过 滤器 加 工 ， 
写 入 数据 库 ( kvs ) 
e 每 隔 一 段 时 间 就 启动 一 次 处 理 ， 输 出 











从 数据 库 获 取 的 数据 








前 面 已 经 出 现 的 生产 者 和 消费 
K 5-6、 表 5-7 所 示 。 

另外 ,， 表 5-8 列举 了 已 出 现 的 和 本 次 新 增 
加 的 过 滤器 。 当 然 这 些 过 滤器 能 做 的 事情 有 
限 ， 今 后 我 还 要 继续 增加 过 滤器 。 

新 增加 的 过 滤 带 里 有 一 个 reduce ()。 
reduce () 是 对 流 的 元 素 进 行 归 约 的 函数 ， 
调用 方式 如 下 所 示 。 























reduce (b) {x,y->...} 


当 上 游 的 流传 来 元 素 (el，e2， ...) 
时 ， 首 先 将 b 作为 第 1 参数 ， 将 el 作为 第 2 
参数 来 对 函数 进行 调用 。 如 果 令 其 结果 为 r1， 
那么 对 下 一 个 元 素 e2 进行 处 理 时 ， 就 将 1 
作为 第 1 参数 ， 将 e2 作为 第 2 参数 来 对 函数 
进行 调用 。 后 面 的 元 素 也 要 进行 相同 的 处 理 ， 
最 后 得 到 的 结果 会 作为 输出 传 给 下 游 的 流 。 















































IN B I 


个 字符 〈 字 节 )， 加 上 末尾 的 





表示 的 结构 。 如 果 设 置 了 命名 空间 的 对 象 持 有 


表 5-6 Streem 的 生产 者 


stdin 
fread() 

tcp server () 
tcp socket () 
seq() 

rand() 


tick 


标准 输入 

读 取 文 件 

套 接 字 连 接 

读 取 套 接 字 

一 定 范 围 的 整数 
随机 数 序列 

每 隔 一 定时 间 产 生 一 次 寻 


























表 5-7 Streem 的 消费 者 


Hu em 


stdout 
stderr 
fwrite() 

tcp socket |() 


each() 





标准 输出 
标准 错误 输出 
写 入 文件 
写 入 套 接 字 
循环 








表 5-8 Streem 的 过 滤器 


aag OO fR 


map () 
filter() 
count () 
sum() 

csv () 
flatmap() 
split () 
reduce() 


reduce by key() 














用 函数 执行 结果 进行 替换 
选择 符合 条 件 的 数据 
提供 元 素数 量 
计算 元 素 的 总 和 

Er csv 字符 串 转 换 为 数组 
展开 数组 的 map ( 新 增加 ) 
分 割 字符 串 ( 新 增加 ) 

归 约 ( 新 增加 ) 
根据 键 进行 归 约 ( 新 增加 ) 

















fii Hi reduce () 进行 阶乘 计算 的 代码 如 图 5-12 所 
示 。 其 他 语言 常 使 用 递归 和 循环 进行 阶乘 计算 ， 与 这 
些 语 言 的 代码 相 比 ， 使 用 reduce () 进行 阶乘 计算 的 
代码 看 起 来 有 很 大 的 不 同 。 

另外, 已 经 出 现 的 sum () 函数 能 够 使 用 reduce 
像 图 5-13 那样 进行 定义 。 如 此 定义 的 sum () 会 返 
过 滤器 流 ， 把 从 上 游 接收 的 数据 的 总 和 传 给 下 游 。 





— 





E 


使 用 归 约 进行 单词 计数 


我 们 还 需要 reduce 的 变 体 ， 即 根据 键 进行 统计 
HJ reduce by key () 困 数 ， 这 个 函数 用 在 可 以 说 是 
管道 编程 界 的 Hello World 的 单词 计数 中 。 使 用 Streem 
进行 单词 计数 的 程序 如 图 5-14 所 示 。 

在 图 5-14 中 ， 下 面 的 代码 把 从 stain 输 入 的 各 
行 按 照 单 词 进行 了 分 割 。 






































flatmap(s-»s.split(" ")] 


split PRU TEN SUO BAT REFER SE, RREH, £latmapjit 
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seq(6) |reduce{x,y->x*y} |stdout 
5-12 ”使 用 reduce() 进行 阶乘 计算 的 代码 


def sum() { 
reduce(0) {x,y -> x+y} 


} 


5-13 ”使 用 reduce() 对 sum() 进行 定义 


stdin 

| flatmap(s-»s.split(" ")) 
| map(x-»I[x, 11) 

| reduce by key(k,x,y-»x-«y] 
| stdout 


5-14 使 用 Streem 进行 单词 计数 

















函数 返回 的 数组 展开 为 流 元 素 。 结 果 ， 当 从 上 游 的 流传 来 以 下 2 行 数据 后 ， 





this is my pen 


my name is yukihiro 





流向 下 游 的 就 是 下 面 这 个 有 8 个 元 素 的 数据 。 


is 


yukihiro 

















另外 ， 由 于 我 想 用 网 5-14 来 说 明 flatmap， 所 以 没有 使 用 下 面 这 个 函数 。 
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split ( "n wy 




















是 为 了 使 代码 更 加 简洁 而 准备 的 函数 ， 它 的 作用 与 下 面 的 ELlatmap 代码 基本 相同 。 




















人 








flatmap(s-»s.split(" ")] 





下 一 个 阶段 的 map 会 将 单词 序列 转换 为 下 面 这 种 形式 的 数组 。 











[| 





ig, reduce by key O 接收 拥有 2 个 元 素 的 数组 的 流 ， 按 照 每 条 数据 中 的 第 1 个 元 素 进 行 
分 组 ， 对 第 2 个 元 素 进行 归 约 。 于 是 ， 原 来 的 2 行 输入 就 会 转换 为 下 面 这 种 形式 。 把 这 个 结果 输出 
到 stdout, ， 就 完成 了 单词 计数 的 处 理 。 

















make, 3L] 
[xe 2] 

[my, 2] 

[pen, 1] 
[name, 1] 
[mas sins PESSIMI 


流 的 分 又 与 合流 


在 前 面 介绍 的 大 部 分 例子 中 ， 由 流 组 成 的 管道 是 一 条 路 走 到 底 的 模式 ， 即 从 生产 者 开始 ， 经 过 











过 滤器 ， 最 后 到 达 消 费 者 。 
但 是 流 的 组 成 模式 并 不 只 有 这 一 种 ( 图 5-15 )。 














ee 
图 5-15 流 的 组 成 模式 
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图 5-15(1) 的 连接 指 的 是 使 用 “| ”将 两 个 流 的 输入 和 输出 相连 ， 这 就 是 前 面 出 现 的 流 的 最 基本 
的 组 成 模式 。 

混合 指 的 是 把 多 个 流 的 内 容 合 并 为 一 个 流 。 数 据 按照 到 达 的 顺序 混合 后 ， 流 向 下 游 的 流 。 这 里 
举 一 个 具体 的 例子 。 比 如 有 a 和 两 个 流 ， 当 这 两 个 流 的 内 容 流 向 stdout 时 ,下面 这 两 行 代码 
就 可 以 构建 图 5-15(2) 所 示 的 混合 流 。 











a | stdout 
b | stdout 


图 5-15(3) 的 汇合 模式 在 合并 多 个 流 的 数据 这 一 点 上 与 混合 模式 相同 ， 但 是 行为 不 同 。 它 并 不 
是 简单 地 让 各 个 流 的 数据 流向 下 游 ， 而 是 对 这 些 数据 进行 组 合 ， 形 成 数组 之 后 再 使 其 流向 下 游 。 
由 于 汇合 模式 看 上 去 与 拉 锁 (zipper) 很 像 ， 所 以 就 使 用 zip 函数 。 

在 用 seq () 生成 从 1 开始 的 流 , 用 fread (path) 获得 文件 内 容 的 流 之 后 ， 假 设 为 了 把 这 两 
个 流 汇合 为 一 个 流 而 像 下 面 这 样 使 用 了 zip 函数 ， 





















































zip(seq(), fread(path)) 











这 样 一 来 ， 各 行 就 都 会 被 赋予 如 下 所 示 的 数据 ， 其 中 每 一 行 都 是 行 号 和 行 的 内 容 的 组 合 ， 正 好 
相当 于 cat-n 命令 。 





[数值 ， 行 ] 





seq 0 函数 依次 生成 整数 的 速度 与 文件 的 读 取 速度 应 该 是 不 同 的 。 即 便 如 此 ， 各 个 流 的 元 素 也 
会 按照 顺序 进行 组 合 。 

图 5-15(4) 的 分 配 是 指 让 从 上 游 过 来 的 数据 流向 多 个 流 。 让 从 a 流 过 来 的 数据 流向 b 和 c 这 两 
个 流 的 代码 如 下 所 示 。 





a|b 
ave 


在 这 种 情况 下 ， 流 向 b 和 c 的 是 同样 的 数据 。 

最 后 的 图 5-15(5) 的 结合 指 的 是 把 两 个 流 按 顺 序 连 接 起 来 。 在 结合 a 和 ob 这 两 个 流 时 , 在 a 流 
的 所 有 数据 流向 下 游 之 后 ， 再 发 送 b 流 的 数据 。 结 合流 时 使 用 的 运算 符 是 “+”。 比 如 运行 下 面 这 行 
代码 ， 就 会 在 a 的 内 容 之 后 输出 b 的 内 容 。 

















(a + b) | stdout 
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UNIX 的 cat 命令 会 依次 输出 多 个 参数 的 文件 内 容 ， 可 以 认为 二 者 是 同样 的 东西 。 


需要 进行 流量 控制 


这 里 出 现 了 一 个 难题 。 比 如 在 zip 的 情况 下 ， 输 入 的 流 有 多 个 ， 每 个 流 生 成 数据 的 速度 不 同 。 
f& seq () 和 rand() 这 种 只 进行 简单 计算 的 生产 者 会 接连 不 断 地 发 送 数据 ， 但 是 像 套 接 字 这 样 的 
生产 者 就 会 根据 连接 对 象 来 决定 发 送 数据 的 时 机 。 

不 过 在 没有 集 齐 来 自 上 游 的 所 有 数据 之 前 ，zip 本 里 是 不 会 开始 处 理 的 。 因 此 ， 在 组 合 使 用 生 
成 数据 的 速度 不 同 的 上 游 流 时 ， 速 度 快 的 流 的 数据 就 会 被 积压 〈 消耗 内 存 )。 为 了 避免 这 样 的 情况 ， 
就 需要 进行 数据 的 流量 控制 。 

















降低 生产 者 的 优先 级 


流量 控制 的 实现 方法 有 很 多 种 ， 本 次 也 将 采取 与 前 面相 同 的 方式 ， 通 过 降低 生产 者 流 的 优先 级 
来 实现 对 流量 的 控制 。 

管道 中 流转 的 数据 过 多 会 使 下 游 的 流 来 不 及 处 理 ， 这 时 就 需要 进行 流量 控制 ， 所 以 我 打算 让 下 
游 处 理 的 优先 级 高 于 生产 者 ， 以 此 来 进行 流量 控制 。 不 过 很 难 预 测 异 步 程序 的 举动 。 对 于 zip 这 
种 汇合 两 个 流 的 函数 ， 这 种 降低 生产 者 优先 级 的 方式 能 否 奏效 ， 现 在 还 是 未 知 数 。 所 以 要 先 让 程序 
实际 和 运行 起 来 ， 之 后 再 根据 运行 结果 来 确认 是 否 有 问题 。 

5-1 节 之 前 的 Streem 实现 都 为 运行 队列 设置 了 优先 级 ， 降 低 了 生产 者 的 优先 级 顺序 。 这 次 我 准 
备 了 生产 者 专用 的 队列 ， 通 过 把 程序 修改 为 按照 普通 队列 、 生 产 者 队列 的 顺序 取出 数据 ， 来 降低 生 
产 者 的 优先 级 。 




































































不 考虑 分 配 时 的 滞留 


其 实 同样 的 问题 也 会 在 下 游 的 流 中 发 生 。 在 数据 被 分 配 到 多 个 下 游 的 流 时 ， 如 果 各 个 下 游 的 
流 的 处 理 速 度 不 同 ,那么 在 速度 较 慢 的 流 之 前 就 会 出 现 数据 的 积压 。 但 如 果 上 游 分 配 数据 的 流 是 
过 滤器 ， 而 不 是 生产 者 ,那么 前 面 介绍 的 通过 降低 生产 者 的 优先 级 来 进行 流量 控制 的 方法 就 没 
有 效果 了 。 

经 过 多 番 考 虑 ， 我 认为 下 游 的 问题 应 该 不 会 很 严重 ， 所 以 暂时 不 予以 解决 。 

但 是 在 这 二 十 年 来 的 Ruby 开发 的 过 程 中 ,我 明白 了 一 点 ， 那 就 是 很 难 限制 语言 处 理 器 的 使 用 
场景 。 可 能 会 发 生 的 问题 必定 会 发 生 ， 甚 至 还 会 比 预想 的 更 加 严重 。 将 来 有 一 天 Streem 也 必须 解 
决 这 个 问题 ， 我 需要 在 这 一 天 到 来 之 前 想 好 解决 办 法 。 


























us 
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在 目前 使 用 的 队列 中 增加 对 内 存 的 考虑 


为 了 实现 流量 控制 ， 我 决定 大 幅 修 
改 Streem 事件 处 理 的 核心 部 分 一 一 事 
件 循 环 。 

图 5-16 所 示 为 前 面 实现 的 事件 处 
理 架 构 。 这 个 架构 的 特点 是 每 个 worker 
线程 都 有 自己 的 任务 队列 ， 这 样 做 的 
目的 是 让 同一 个 管道 的 处 理 在 同一 个 5-16 ”修改 前 的 事件 处 理 架 构 
worker 线程 中 执行 。 这 样 做 有 几 个 好 处 。 首 先 ， 不 用 担心 属于 流 的 任务 被 多 个 线程 执行 ， 所 以 也 就 
不 需要 考虑 并 发 控制 。 另 外 ， 任 务 会 被 依次 执行 ， 所 以 不 会 出 现 处 理 速度 不 均 导 致 数据 顺序 发 生 改 
变 的 情况 。 最 后 ， 由 于 一 系列 的 任务 在 同一 个 线程 执行 ， 所 以 可 以 共享 缓存 ， 提 高 内 存 访问 的 效率 。 

但 是 在 管道 数量 较 少 的 情况 下 ， 即 使 在 众 核 环境 下 运行 ， 该 架构 也 无 法 发 挥 出 多 核 的 威力 ,无 
法 进一步 提高 性 能 。 

也 就 是 说 ， 该 架构 虽然 可 以 通过 灵活 使 用 缓存 来 提高 性 能 ， 但 也 存在 无 法 充分 利用 多 核 的 缺 
点 。 综 合 考虑 ， 缺 点 更 明显 一 些 。 至 于 保证 顺序 这 一 点 ， 由 于 在 流 处 理 的 场景 中 顺序 大 多 不 会 发 展 
成 很 严重 的 问题 ， 所 以 它 也 算 不 上 是 一 个 很 大 的 优点 。 


































































修改 为 优先 考虑 内 核 的 灵活 使 用 


于 是 我 设计 了 图 5-17 这 种 新 的 结 
构 。 共 享 队列 之 后 ， 空 闲 的 worker 线 
程 会 去 接收 新 的 任务 ， 从 而 提高 内 核 使 
用 率 。 属 于 同一 个 管道 的 任务 如 果 在 不 
同 的 线程 执行 ， 就 可 能 无 法 共享 一 级 组 
存 。 不 过 数据 保存 在 二 级 缓存 和 三 级 组 
存 的 可 能 性 非常 高 ， 所 以 这 里 忽略 这 个 ”图 5-17 新 的 事件 处 理 架构 
问题 。 男 外 ， 图 5-17 中 省 略 了 用 于 进行 流量 控制 的 生产 者 队列 。 

不 过 ， 图 5-17 的 架构 还 存在 一 些 问题 。 首 先 ， 在 属于 同一 个 流 的 任务 之 间 需 要 进行 并 发 控制 
的 情况 非常 多 。 在 前 面 介绍 的 过 滤器 中 ， 就 有 在 流 中 存在 状态 的 count () 、sum() fll reduce () 
等 隐 数 ， 这 些 函 数 就 需要 进行 并 发 控制 。 

为 了 避免 这 种 情况 出 现 ， 我 为 每 个 worker 线程 都 准备 了 属于 自己 的 队列 。 如 果 从 队列 里 取出 
的 任务 所 属 的 流 需 要 进行 并 发 控制 ， 就 在 当前 任务 运行 结束 之 后 ， 让 接 下 来 的 任务 继续 运行 ， 以 
避免 因 同时 运行 而 失去 连续 性 。 换 句 话 说， 就 是 向 正在 运行 任务 的 worker 的 队列 里 添加 接 下 来 的 
任务 。 
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改善 任务 队列 的 实现 


为 了 提高 事件 处 理 效率 ， 我 也 修改 了 队列 的 实现 。 之 前 是 通过 组 合 使 用 锁 和 条 件 变量 来 实现 队 
列 的 ， 这 种 实现 方式 虽然 能 够 保证 程序 正常 工作 ， 但 在 性 能 上 却 有 很 大 问题 。 

多 线程 环境 下 的 数据 结构 如 果 不 好 好 设计 就 不 能 正常 工作 。 比 如 ， 在 某 个 线程 正在 替换 数 
时 ， 如 果 有 别 的 线程 读 取 数 据 ， 那 么 实际 读 到 的 数据 就 可 能 是 下 面 几 种 情况 的 其 中 一 种 。 

















HI 
































e 运气 很 好 ， 是 正确 的 数据 
e 是 数据 替换 过 程 中 的 不 完整 的 数据 
e 是 已 经 替换 完毕 的 毫 无 关系 的 垃圾 数据 



































更 糟 的 是 ,不 同 的 运行 时 机 会 发 生 不 同 的 情况 ， 你 根本 无 法 预测 到 底 会 发 生 哪 种 情况 。 基 本 上 
可 以 正常 工作 ， 但 偶尔 会 失败 ， 这 种 bug 才 是 最 难 解决 的 。 

为 了 避免 这 种 问题 出 现 ， 需 要 在 多 线程 环境 下 对 共享 的 数据 结构 进行 并 发 控制 。 有 具体 来 说 ， 在 
访问 线程 之 间 共 享 的 数据 时 ， 要 在 访问 之 前 加 锁 ， 访 问 之 后 解锁 。 虽 然 其 他 线程 在 访问 数据 时 也 会 
去 加 锁 ， 但 如 果 由 于 有 线程 正在 访问 而 已 经 上 了 锁 ， 那 么 准备 加 锁 的 线程 就 需要 在 锁 被 释放 之 前 暂 
停 运 行 。 

暂停 运行 就 意味 着 处 理 停滞 。Streem 会 启动 与 内 核 数 数量 相同 的 worker 线程 ， 对 于 这 种 类 型 
的 架构 来 说 ， 这 就 意味 着 无 法 充分 利用 宝贵 的 多 核资 源 ， 真 的 很 浪费 。 

为 了 避免 这 样 的 问题 出 现 ， 就 需要 设计 出 不 使 用 锁 进 行 保护 的 无 锁 数据 结构 。 无 锁 数 据 结构 采 
用 了 无 论 多 个 线程 在 何 时 访问 ， 数 据 都 不 会 出 现 问 题 的 算法 。 

这 些 全 部 都 由 我 自己 来 实现 有 些 不 太 现 实 ， 所 以 我 决定 利用 现成 的 东西 。 我 在 GitHub 上 找到 
了 下 面 这 个 库 ， 我 决定 ( 在 进行 大 幅 改 造 之 后 ) 使 用 这 个 无 锁 队 列 。 






































github:supermartian/lockfree-queue 


CAS 





在 不 考虑 线程 的 普通 编程 中 ， 更 新 数据 的 操作 步骤 是 先 读 取 ， 然 后 再 加 工 、 写 回 。 但 是 ,在 读 取 
之 后 加 工 之 前 的 这 段 时 间 里 ， 如 果 有 其 他 线程 访问 或 者 修改 了 这 个 数据 ， 可 能 就 会 出 现 数据 不 完整 的 
问题 。 为 了 不 发 生 这 样 的 问题 ， 就 需要 让 数据 的 查看 和 修改 同时 进行 ， 这 就 是 无 锁 算法 的 基本 思想 。 

这 种 不 可 分 割 的 修改 操作 被 称 为 CAS (Compare and Swap， 比 较 并 交换 ) CAS 有 内 存 位 置 、 
值 1 和 值 2 这 3 个 参数 。 比 较 内 存 位 置 的 值 与 值 1， 如 果 相 等 就 把 值 2 保存 到 内 存 位 置 。CAS 是 通 
it CPU 的 1 个 指令 实现 的 ， 可 以 保证 在 操作 过 程 中 不 会 有 其 他 线程 执行 。 这 种 不 可 分 割 的 操作 就 
称 为 原子 操作 。 
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C 语言 最 开始 不 存在 实现 CAS 的 指令 ， 所 以 需要 用 汇编 语言 编写 调用 CAS 指令 的 代码 。 不 过 
幸运 的 是 ，GCC 从 4.1 版 本 开始 提供 了 实现 CAS 的 扩展 功能 ， 该 功能 的 代码 如 下 所 示 。 


























. Sync bool compare and swap () 


小 结 











本 节 对 管道 处 理 的 概念 进行 了 整理 ， 并 对 实现 进行 了 改进 。 在 多 线程 环境 中 编程 时 需要 考虑 很 
多 事情 ,很 让 人 烦恼 。 下 一 期 ( 本 书 中 是 4-5 节 ， 具 体 请 查看 下 面 的 时 光 机 专栏 ) 我 想 再 稍微 介绍 
一 下 这 个 实现 的 改进 。 




















时 光 机 专栏 
依赖 于 运行 时 机 的 bug 真 是 难以 处 理 








本 节 是 2016 年 4 月 刊 中 刊登 的 内 容 。 本 节 新 增 了 reduce. reduce by key 和 zip 等 
函数 作为 管道 的 构成 要 素 。 另 外 ， 我 们 也 初步 接触 了 无 锁 队 列 。 
连载 时 本 节 内 容 刊 登 在 4-5 节 的 前 一 期 ， 所 以 可 能 会 觉得 本 书 的 顺序 有 点 别扭 。 在 
4-5 节 的 时 光 机 专栏 里 我 提 到 过 ， 无 锁 队 列 并 没有 解决 高 负荷 时 发 生 的 bug， 所 以 最 终 没有 采 
( 虽然 代码 还 在 ， 但 是 编译 时 还 是 通过 标志 位 使 用 了 有 锁 队 列 )。 
依赖 于 运行 时 机 的 bug 真 的 很 难 调试 。 我 花 了 很 大 精力 去 尝试 解决 这 个 bug， 但 是 因 时 间 
有 限 ， 最 后 只 好 选择 放弃 ， 以 后 我 会 再 去 挑战 这 个 问题 的 。 


























































































































































































































P -3 CSV 处 理 功 能 


当 进 行 像 Streem 这 样 的 管道 处 理 时 ， 作 为 输入 的 数据 格式 ， 最 常见 的 恐怕 就 是 CSV 格 



































式 了 。 本 节 将 一 边 开 发 CSV 格 式 的 数据 输入 处 理 功能 ， 一 边 进行 相关 内 容 的 讲解 。 非 
“标准 ”的 CSV 处 理 相当 麻烦 。 

















CSV ( Comma-Separated Values, 3224) fE ) 作为 表示 表格 结构 的 数据 格式 被 广泛 使 用 。 特 
别 是 在 把 Excel 等 计算 软件 的 数据 导出 到 其 他 软件 时 ，CSYV 这 种 简单 的 文本 格式 是 最 靠 谱 的 ， 也 是 
最 让 人 放心 的 。 

因为 各 大 软件 都 支持 CSV 格式 ， 所 以 它 没有 一 个 统一 的 标准 。 尽 管 IETF ( Internet Engineering 
Task Force， 国 际 互联 网 工程 任务 组 ) 以 文件 的 形式 定义 了 RFC4180 规范 ， 但 这 也 只 是 作为 信息 参 
考 使 用 ， 并 不 是 一 个 严密 的 规范 ， 而 且 很 多 CSV 数据 没有 遵循 RFC4180 规范 。 不 过 尽管 如 此 ， 我 
们 也 不 能 忽视 该 规范 。 

本 节 我 们 就 来 为 Streem 添加 CSV 格式 的 数据 输入 处 理 功 能 。 




















RFC4180 


RFC4180 定义 的 CSV 数据 格式 的 规则 大 体 上 可 以 总 结 为 如 下 内 容 。 

首先 ， 文件 需 包含 一 条 以 上 的 记录 。 记 录 是 由 CRLF (Carriage Return/Line Feed) 分 隔 的 
“ 行 "， 用 CC 语言 的 风格 表示 CRLF 就 是 "\r\n"。 

记录 和 需 包 含 一 个 以 上 的 字段 。 字 段 由 逗号 分 隔 ， 最 后 一 个 字段 的 后 面 没 有 逗号 。RFC4180 规定 
每 条 记录 都 包含 同样 数量 的 字段 。 

字段 可 以 用 双 引 号 “"” 围 起 来 ， 但 是 如 果 字 段 中 包含 逗号 、 双 引号 和 换行 等 字符 ， 就 必须 用 
双 引 号 围 起 来 。 在 被 双 引 号 围 起 来 的 字段 中 使 用 接连 出 现 的 两 个 双 引 号 “""” 来 表示 双 引 号 本 身 。 

CSV 可 以 带 有 表 头 (header )。 是 否 带 有 表 头 由 外 部 指定 ， 如 果 有 表 头 ， 那 么 构成 表 头 这 条 记 
录 的 各 字段 的 字符 串 就 相当 于 各 字段 的 名 称 。 























CSV 的 变 体 


前 面 提 到 过 ，RFC4180 不 是 CSV 规范 ， 更 像 是 一 个 松散 的 协议 。 在 RFC4180 被 制定 之 前 就 已 
经 开发 出 了 很 多 解释 CSV 的 软件 ， 所 以 CSV 的 解释 也 有 很 多 变 体 ， 比 如 下 面 这 些 。 
































e 记录 的 分 隔 符 不仅 有 CRLF， 有 的 软件 也 允许 用 LF 























e 字段 的 分 隔 符 不 仅 有 有 逗号 ， 有 的 软件 也 允许 用 tab 和 空格 





























e 双 引 号 的 转 义 是 把 双 引 号 重复 两 次 ， 不 过 有 的 软件 也 允许 以 前 置 


转 义 














e RFC4180 要 求 所 有 记录 的 字段 数 者 
尽 相 同 ， 有 的 软件 报错 ， 有 的 软 从 
e 在 CSV 文件 中 有 空 行 的 情况 下 ， 有 的 软件 会 忽略 这 一 行 
































数 为 0 的 记录 处 理 
F CSV Éf$ 








e 有 的 软件 允 讨 











e RFC4180 中 没有 关于 字段 的 数 # 

















BHE É 
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部 由 数字 构成 的 字段 转换 为 数值 





的 可 选 形式 。 


E 中 FE 














EKER ( 全 




















， 有 的 软件 则 会 扫 




















部 作为 字符 串 处 理 )， 有 的 软件 会 





由 于 CSYV 格式 的 数据 非常 多 ， 所 以 我 们 无 法 忽视 这 些 变 体 的 存在 ， 














许多 CSV 函数 都 接受 大 


下 ， 各 软件 的 处 理 方式 也 不 
空 字符 补 上 不 足 的 字段 
书 这 一 行 作为 字段 


自动 把 全 

















地 


不 过 这 次 我 不 考虑 这 些 可 选 形 式 ， 而 是 以 在 大 多 数 情 况 下 可 以 正常 运行 为 目标 ,今后 再 根据 需 


要 强化 功能 。 


探索 GitHub 


虽然 我 也 可 以 自 
一 下 他 人 的 成 果 吧 。 











己 从 零 开始 编写 解释 CSV 的 函数 ， 但 既然 自己 开发 的 是 开源 软件 ， 就 去 借鉴 


























于 是 我 决定 在 网 上 查找 解释 CSV 的 开源 函数 ， 从 中 选择 符合 条 件 的 来 使 用 ， 如 果 找 不 到 就 自 


己 去 开发 。 


CSV 函数 的 查找 条 件 如 下 所 示 。 

















e 代码 是 





C 语言 开发 的 ， 这 档 














e 代码 要 容易 理解 ， 以 便 后 面 修改 


e 要 保证 是 线程 

















安全 的 ， 比 如 没有 








使 





























全 局 变量 等 





e 许可 证 要 适合 与 Streem 组 合 使 用 ， 最 好 是 MIT 





容易 引入 到 Streem 中 





那么 有 满足 这 些 条 件 的 库 吗 ? 总 之 先 去 GitHub 上 找 找 看 。 现 在 源 代码 都 集中 在 GitHub E, FÈ 


起 来 轻松 多 了 。 


在 GitHub 的 搜索 栏 里 ， 输 入 下 面 的 查询 条 件 。 


csv language:C 
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language :C 部 分 用 来 指定 开发 语言 。 这 一 信息 不 是 用 户 指定 的 ， 而 是 GitHub 根据 源 代码 的 
信息 推测 出 来 的 ， 所 有 偶尔 会 出 现 错误 。 不 过 出 错 的 基本 上 是 用 多 种 语言 实现 的 工程 ， 这 次 要 找 的 
功能 单一 的 库 应 该 不 会 出 错 。 

用 这 个 条 件 找到 了 174 个 代码 库 (2015 年 7 月 上 旬 的 结果 )， 数 量 不 少 。 先 排除 掉 其 中 没有 明 
示 许 可 证 的 库 。 如 果 剩 下 的 库 中 没有 符合 条 件 的 ， 就 需要 向 作者 留言 进行 交涉 了 ， 所 以 还 是 一 开始 
就 写 清楚 许可 证 的 库 省 事 一 些 。 

接着 基于 上 面 的 条 件 对 各 个 库 进 行 筛选 。 符 合 条 件 的 库 中 数量 最 多 的 是 以 GPL 协议 提供 的 
libcvs 的 封装 库 ， 但 由 于 这 次 用 不 到 libevs 这 么 多 的 功能 ， 所 以 排除 掉 这 些 库 。 其 次 比较 多 的 是 全 
局 变量 的 库 ， 由 于 这 些 库 不 适合 在 多 线程 运行 的 Streem 中 使 用 ， 所 以 也 只 好 放弃 。 

经 过 一 番 筛 选 之 后 ， 剩 下 的 库 中 最 符合 条 件 的 就 是 名 为 semitrivial/csv parser 的 库 了 。 
该 库 没 有 使 用 全 局 变量 ， 非 常 简单 ， 也 没有 多 余 的 处 理 ， 而 且 代 码 容易 理解 ， 改 造 起 来 应 该 也 很 容 
易 。 更 难得 的 是 ， 许 可 证 也 与 Streem 本 身 一 致 ， 都 是 MIT 许可 证 。 因 此 ， 我 决定 以 这 个 库 为 基础 
进行 开发 。 










































































许可 证 





GitHub 里 很 多 库 都 没有 写 明 许可 证 。 所 幸 这 次 我 找到 了 MIT 许可 证 的 源 代 码 ， 但 是 在 没有 写 
明 许 可 证 的 情况 下 ， 我 们 该 怎么 办 呢 ? 
推荐 的 做 法 是 尝试 直接 联系 作者 。 既 可 以 用 GitHub 的 issue 进行 提问 ， 也 可 以 给 作者 发 邮件 ， 
因为 大 多 数 情况 下 作者 会 留 下 自己 的 邮箱 地 址 。 比 如 我 们 可 以 在 邮件 中 这 样 写 : "我 想 在 自己 的 软件 
里 使 用 您 的 源 代 码 ， 可 是 源 代码 没有 写 明 许可 证 ， 我 用 起 来 不 放心 ， 所 以 想 请 您 确定 一 下 许可 证 。 
我 个 人 希望 是 MIT 许可 证 。 如 果 可 以 ,我 会 以 x x 方式 感谢 您 ， 您 意 下 如 何 ?” 如 果 作 者 不 是 过 
于 以 自我 为 中 心 ， 我 想 应 该 会 积极 地 回应 。 

在 GitHub 公开 源 代码 的 人 ， 一般 不 会 反感 对 自己 的 代码 感 兴趣 的 人 来 联系 自己 。 但 如 果 要 求 
对 方 按照 自己 的 需求 修改 已 经 拥有 一 定 用 户 的 软件 的 许可 证 ， 疏 怕 对 方 不 会 同意 。 大 家 换 位 思考 一 
下 就 能 明白 。 在 这 一 点 上 ， 比 起 已 经 声明 了 许可 证 的 软件 ， 请 求 没 有 声明 许可 证 的 软件 的 作者 为 我 
们 加 上 许可 证 或 许 更 加 可 行 ( 虽然 有 得 不 到 回应 的 风险 )。 

其 实 这 次 采用 的 semitrivial/csv_parser 库 在 我 写 稿 期 间 被 原作 者 删除 了 。 虽 然 我 手头 
有 副本 ， 不 影响 工作 ， 但 如 果 不 得 到 原作 者 的 同意 ， 说 不 定 以 后 会 引起 纠纷 。 

于 是 我 尝试 联系 了 作者 ， 并 很 快 得 到 了 作者 的 回信 ， 信 中 说 :“ 我 没 想到 是 这 么 重要 的 代码 ， 所 
以 没有 多 想 就 删除 了 。 你 要 用 的 话 我 就 恢复 这 个 库 。 谢 谢 你 喜欢 这 个 代码 。” 后 来 为 了 对 作者 恢复 
代码 表示 感谢 ,我 fork 了 这 个 库 ， 并 加 了 星 

这 样 的 交流 也 是 开源 软件 开发 的 乐趣 之 一 。 
























































o 
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csv_parser 


原版 的 csv_ parser 由 图 5-18 KIPA eR 
数组 成 。parse_csv 函数 解析 字符 串 形 式 的 char **parse csv(const char *line); 
CSV 记录 ， 返 回 分 割 成 字段 的 字符 申 数 组 。 使 Old T linefehar Trparsel); 
用 完 这 个 数组 后 , 用 free csv line KZ 
放 内 存 。 

包含 空 行 在 内 ， 整 个 实现 只 有 145 行 。 可 以 说 这 个 代码 非常 容易 理解 ， 改 造 起 来 也 很 容易 。 

不 过 在 添加 到 Streem 的 代码 中 时 ， 有 几 处 需要 进行 修改 。 首 先是 字符 串 的 表示 。csv_ 
parser 接收 末尾 是 NUL (N0) 的 C 字符 串 ， 并 返回 C 字符 串 的 数组 。 但 由 于 Streem 有 自己 的 
对 象 ， 所 以 需要 接收 Streem 字符 串 (strm string), FREE Streem 字符 串 的 Streem 数组 
(strm array). 

先 从 这 里 开始 修改 ， 另 外 还 要 支持 中 间 包 含 NUL 的 字符 串 。 

首先 ， 将 接收 末尾 为 NUL 的 C 字 符 串 数据 的 部 分 全 部 蔡 换 为 Streem FIFE (strm_ 
string* )。 另 外 ， 把 循环 条 件 “ 不 包括 NUL 的 字符 串 长 度 ” 修 改 为 “字符 串 的 长 度 ”。 

在 返回 数据 部 分 的 代码 中 ,将 由 mal1loc 分配 内 存 空 间 的 部 分 将 换 为 Streem 对 象 的 分 配 〈 数 
组 由 strm ary_new 分 配 ， 字符 串 由 strm str value 分 配 )。 

原版 不 支持 末尾 换行 ， 所 以 当 末 尾 有 换行 符 (CR 或 者 LE) 时 ， 要 将 其 删除 。 

内 存 管理 由 Streem 的 GC 功能 负责 。 删 除 图 5-18 的 free_csv_line KZ. 























5-18 csv_parser 提供 的 函数 





















































Streem 数组 





这 样 就 (姑且 ) TE Streem 中 添加 了 CSY 功能 ， 

图 5-19 的 代码 可 以 运行 了 。 fread("sample.csv")|csv()|stdout 
不 过 现在 Streem 还 没有 输出 数组 的 功能 ， 所 以 p f 

即使 读 取 CSV 文件 并 输出 到 staout， 转 换 为 数组 85719 HR CSV 的 Streem 代码 

的 记录 也 只 能 表示 为 如 下 形式 。 





[ed] 





这 样 一 来 ， 即 便 知 道 传 来 的 是 数组 ， 因 为 不 了 解 信息 的 内 容 ， 所 以 就 连 代 码 是 否 正 常 工 作 也 都 
不 得 而 知 ， 这 都 是 拜 我 之 前 偷懒 所 赐 。 

这 样 下 去 是 不 行 的 ， 所 以 借 此 机 会 我 要 实现 表示 数组 的 功能 。 

数组 的 表示 其 实 非 常 麻 烦 。 数 组 是 递归 的 数据 结构 ， 包 括 数 组 本 映 在 内 的 其 他 数据 也 都 可 以 作 
为 数组 的 元 素 。 另 外 ,在 字符 串 的 情况 下 ， 表 示 方 法 又 会 根据 字符 串 是 否 为 数组 元 素 而 发 生 改 变 。 
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具体 来 说 ， 比 如 在 输出 "abeNn" 这 个 字符 串 时 ,会 按照 a、b、c 以 及 换行 的 顺序 输出 。 如 果 
这 个 字符 串 是 数组 元 素 ， 输 出 就 应 该 是 如 下 这 种 形式 。 


["abcNn"] 


也 就 是 说 ， 作 为 数组 元 素 的 字符 串 要 用 双 引 号 玮 起 来 ， 特 殊 字 符 要 转换 为 转 义 形式 。 
大 家 可 以 参考 value.c 文件 里 的 strm inspect 函数 ， 处 理 大 体 上 会 按照 下 列 步骤 进行 。 


























e 除了 现 有 的 字符 串 输出 函数 (strm to str 函数 ) 之 外 ， 还 新 增 了 更 容易 理解 的 字符 串 输 
出 函数 ( strm inspect 函数 ) 
e 使 用 strm_inspect 羡 数 进行 数组 的 字符 串 输 出 。stzm_inspect 函数 对 各 种 数据 类 型 进 
行 如 下 的 字符 串 输出 处 理 
“对 于 整数 和 浮 点 数 ， 直 接 进 行 字符 串 输出 。 字 符 串 用 双 引 号 围 住 ， 特 殊 字 符 e Ve 
\n、Ne ) 输出 为 转 义 形式 ， 控 制 字符 输出 为 数值 
。 对 于 数组 ， 在 “[” 之 后 用 strm inspect 函数 依次 对 各 个 元 素 进行 字符 串 输 出 ， 字 符 
串 输出 后 的 各 元 素 用 “,” 隔 开 ， 在 末尾 输出 “] ” 

























































































































































































这 样 就 可 以 用 人 能 够 理解 的 形式 输出 数组 了 ， 比 如 读 和 人 下 面 这 行 代码 后 ， 














松本 ， 男 性 ,50NrzNn 
就 会 输出 以 下 内 容 。 


[" 松本 "an SEE Ü "50"] 


CSV 格式 


昌 然 可 以 读 取 CSV 数据 了 ， 但 是 我 们 做 得 还 不 够 完美 。 

针对 前 面 提 到 的 CSV 格式 不 统一 的 问题 ， 我 们 需要 去 探讨 Streem 该 如 何 处 理 ， 并 认真 地 做 出 
决定 。 

这 里 再 整理 一 下 CSV 格式 不 统一 的 地 方 ， 主 要 表现 在 以 下 几 点 。 

















e 记录 的 分 隔 符 
e 字段 的 分 割 符 
e 字段 数量 
e 引号 转 义 
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e 注释 
e 字段 类 型 








对 于 这 些 不 统一 的 地 方 ，Streem 不 认可 变 体形 式 。Streem 实际 支持 的 情况 如 表 5-9 所 示 。 比 起 
通过 支持 各 种 变 体 来 应 对 各 种 各 样 的 情况 ( 这 么 做 可 能 会 让 代码 变 得 复杂 )， 我 更 看 重 代 码 的 简洁 


分 全 F 
程度 。 














H 


表 5-9 Streem 支持 的 CSV 功能 


Sreem siR 
























































记录 的 分 隔 符 LF, CRLF LF ( 删除 未 尾 的 CR ) 
字段 的 分 割 符 这 号 或 者 tab 只 支持 逗号 

字段 数量 报错 或 者 调整 至 相同 的 字段 数量 报错 

引号 转 义 两 个 引号 、 前 置 反 斜 柱 “\” 两 个 引号 

注释 Us SS E 

字段 类 型 全 部 是 字符 串 、 数 值 或 者 日 期 只 会 自动 转换 数值 
表 头 从 外 部 指定 


如 果 第 一 行 全 部 是 字符 串 ， 则 视 为 表 头 





将 来 也 许 需要 支持 一 部 分 变 体 形式 ， 不 过 目前 我 们 先 这 样 进行 开发 。 


CSV 的 任务 化 





接 下 来 就 开始 对 原版 的 csv. parser 进行 改造 。 

首先 是 事前 准备 ， 让 csv () 函数 返回 专用 的 任务 。 实 现 方 法 类 似 于 4-1 节 介 绍 的 服务 器 端 套 
接 字 的 实现 。 

先 创 建 用 于 保存 在 任务 之 间 共 享 的 数据 
的 结构 体 ， 把 这 个 结构 体 命名 为 csv_data struct dew cate | 


strm array *headers; 
( 图 5-20 )。 我 会 在 后 面 介绍 结构 体 成 员 的 含义 。 enum csv type *types; 























csv 函数 的 代码 如 图 5-21 所 示 。 该 函数 所 Strmostring *prev; 
做 的 处 理 只 是 初始 化 csv_aata 结构 休 , 创建 ” )，” 7 
任务 而 已。 


5-20 csv. data 结构 体 
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static int 

Gev (stru etate grece, MMe ege, Serm veltes arga, Serm value? se D) { 
strm task *task; 
struct csv data *cd - malloc(sizeof(struct csv data)); 


if (!cd) return STRM NG; 
cd-»headers = NULL; 
cd-»types - NULL; 
cd-»prev = NULL; 

cd-snmoe D 





raski Sermonew(st mt lter ev acecee Nm ol eo 
SrO = rrn tae lu (ese 
return STRM OK; 


图 5-21 csv 函数 的 代码 

这 样 一 来 ， 当 数据 从 管道 的 上 游 传 过 来 时 ，csv_accept 哺 数 就 会 运行 。 这 与 4-1 节 介 绍 的 
tcp server 水 数 完全 相同 。csv_accept 函数 的 定义 如 网 5-22 所 示 。 从 上 游 传 来 的 数据 是 第 2 
个 参数 。 另 外 ,刚才 被 初始 化 的 csv_dqata 结构 体 可 以 通过 task->data 的 形式 获取 。 不 过 因为 
它 是 以 “void*” 的 形式 保存 的 ， 所 以 需要 通过 类 型 转换 将 其 恢复 为 原 有 结构 体 的 指针 。 























static void 

csv accept(strm task* task, strm value data) { 
strm string *line = strm value str (data); 
Struct csv data *cd - task-»data; 


图 5-22. csv. accept 函数 的 定义 


检查 字段 数 


走 到 这 一 步 之 后 ， 剩 下 的 就 是 依次 实现 表 5-9 里 的 功能 了 。 

首先 从 检查 字段 数 开 始 实现 。 如 果 CSV 各 条 记录 的 字段 数 不 同 ， 就 报错 。 以 前 讲 过 ，Streem 
的 管道 处 理 出 现 错误 时 会 忽略 错误 的 数据 ， 所 以 当 不 满足 条 件 时 ， 程 序 只 会 在 那里 return 而 已 。 
例如 在 检查 字段 数 时 添加 图 5-23 的 代码 。 











并 这 
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(cd-»n » 0 && fieldcnt !- cd-»n) 


return; 


cd-»n - fieldcnt; 


5-23 csv accept 函数 的 字段 数 检查 


CQ- 





由 于 cd- >n 会 被 初始 化 为 0， 所 以 它 在 csv. accept 首次 运行 之 前 的 值 是 0。 在 首次 运行 时 ， 





>n 会 被 设置 为 本 次 的 字段 数 ， 然 后 用 于 下 一 次 检查 。 这 就 意味 着 所 有 与 第 一 条 记录 的 字段 数 不 


同 的 记录 都 会 被 忽略 。 





仔细 想 想 ， 这 个 为 了 便于 开发 而 确定 的 忽略 错误 数据 的 策略 在 实用 层面 上 并 没有 什么 问题 ,但 








是 在 开发 程序 时 如 果 发 生 了 bug， 就 很 难 找 出 问题 发 生 在 哪里 ， 所 以 我 认为 至 少 在 开发 模式 下 要 能 
收 到 错误 消息 。 近 期 我 准备 抽出 一 些 时 间 来 修改 错误 处 理 。 


























多 行 记录 








CSV 允许 字符 串 中 存在 具有 特殊 含义 的 字符 ， 比 如 逗号 、( 转 义 过 的 ) 双 引 号 和 换行 。 
不 过 在 目前 的 Streem 的 CSV 处 理 中 ， 读 取 文 件 时 从 上 游 拿 到 的 是 已 经 被 分 割 为 行 的 数据 ， 

















Is 

















此 当 字 符 串 中 包含 换行 时 ， 本 应 作为 一 条 记录 的 数据 就 会 被 分 割 为 多 行 ， 然 后 再 进行 传递 。 





为 一 


E 


} 





于 是 这 里 添加 了 图 5-24 的 代码 ， 如 果 字 符 串 在 引号 中 结束 了 ( 也 就 是 输入 的 数据 是 包含 换行 的 字符 


串 )， 就 把 它 保存 在 csv_data 结构 体 里 ， 在 下 一 次 运行 时 把 它 与 接 下 来 传 过 来 的 数据 进行 结合 ， 并 解释 
条 记录 。 这 利用 了 字符 串 在 引号 中 结束 后 计算 字段 数 的 count. fields 函数 会 返回 -1 这 一 性 质 。 








(cd-»prev) ( 
strm string *str - strm str new(NULL, cd-»prev-»len-«line--»len-1); 


empi- (eines) EIE PEE 

memcpy (tmp, cd-»prev-»ptr, cd-»prev--»len); 
*(tmp-cd-»prev-»len) = 'Mn'; 
memcpy(tmp-«cd-»prev-»len«1, line-»ptr, line->len); 
Je = Step 

cd-»prev - NULL; 


Eleleme = Coume reles ina) y 
if (fieldcnt == -1) { 


} 


cd eprev amer 
Eee 


5-24 ”多 行 处 理 
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如 果 前 面 有 行 (cd- >prev ) 存在 ， 就 需要 先 把 前 面 的 行 和 现在 的 行 结合 起 来 。 目 前 结合 处 理 
部 分 的 代码 还 不 够 美观 ， 我 想 在 以 后 去 改进 它 。 


字段 类 型 


目前 所 有 字段 都 是 作为 字符 串 处 理 的 ， 但 对 于 明显 是 表示 数值 的 字段 ， 大 多 数 情 况 下 还 是 将 其 
自动 转换 为 数值 比较 方便 。 因 此 ， 当 组 成 字段 的 字符 串 全 部 是 数字 时 ， 就 将 其 自动 转换 为 整数 ， 当 
两 个 数字 序列 之 间 用 “.” 隔 开 时 ， 就 将 其 自动 转换 为 浮 点 数 。 这 是 通过 把 处 理 字 符 串 的 部 分 抽出 
Jj csv value 函数 ， 并 在 其 中 增加 根据 内 容 转 换 为 整数 或 浮 点 数 的 处 理 来 实现 的 。 

另外 ， 我 还 决定 把 类 型 信息 记录 在 csv_data 的 types 成 员 里 ， 在 字段 类 型 不 匹配 的 情况 下 
报错 ， 跳 过 对 那 条 记录 的 处 理 。 

















表 头 处 理 


很 多 CSV 数据 在 第 一 行 都 带 有 表 头 。 接 下 来 我 们 就 来 添加 表 头 处 理 的 功能 。 

R 语言 的 aata.table 库 中 有 一 个 读 取 CSV 数据 的 fread 函数 ， 当 文件 的 第 一 行 全 部 是 字 
符 串 时 ， 这 个 函数 就 会 把 它 当 作 表 头 。 我 们 可 以 参考 这 种 做 法 ， 在 同样 的 条 件 成 立时 ， 把 第 一 行 视 
为 表 头 ， 并 跳 过 这 一 行 。 

不 过 ， 跳 过 这 一 行 会 丢失 一 些 信息 ， 这 让 我 觉得 很 可 惜 。 

所 以 我 决定 在 带 表 头 的 CSV 数据 的 解析 结果 中 返回 持 有 表 头 指定 的 字段 名 的 map。 

本 来 Streem 的 语法 中 就 有 与 Ruby 等 的 散 列 类 似 的 map 数据 类 型 ， 只 是 Streem 的 数据 具有 不 
可 变 的 特点 ， 所 以 我 觉得 散 列 没有 什么 实际 意义 ， 虽 然 在 语法 上 进行 了 支持 ， 但 是 并 没有 去 实现 。 

不 过 我 打算 趁 这 次 机 会 把 map 重新 定义 为 “元 素 带 有 和 名称 的 数组 "。 这 并 不 是 什么 罕见 的 数据 
类 型 ，Python 就 以 “ 带 名 称 的 元 组 ”的 形式 引入 了 这 个 数 

































































据 结构 ，R 里 面 也 有 类 似 的 功能 。 BA 
于 是 我 在 表示 数组 的 结构 体 stxm array* 里 增加 了 "E 
headers 成 员 ， 当 这 个 结构 体 中 包含 名 称 信息 时 , 就 用 。 PTT 
junko, 山口 县 





FH 


strm inspect KULI EATR WAR A. BRAR 
也 想 使 用 名 称 来 进行 访问 ， 但 是 由 于 时 间 的 关系 ， 只 好 以 国 输 出 
后 再 实现 这 个 功能 了 。 [名 字 : matz", 出 生地 :" 岛 取 县 "] 
x. Eg." " 生地 :" 县 " 
最 终 ， 带 表 头 的 CSV 文件 会 像 图 5-25 那样 被 解析 。 人 





y: 

































































aing Æ 5-25 CSV 的 表 头 处 理 
HIXIATT 


我 添加 了 支持 类 型 和 表 头 的 功能 ， 想 让 CSV 的 解析 功能 变 得 更 智能 一 些 ， 可 实际 用 CSV 数据 
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进行 测试 时 ， 却 出 现 了 几 种 我 不 愿 看 到 的 情况 。 

首先 是 类 型 不 一 致 导致 数据 被 跳 过 的 情况 。 用 于 测试 CSV 功能 的 数据 中 ， 各 字段 类 型 不 一 至 
的 情况 相当 多 ， 这 些 类 型 不 一 致 的 记录 都 会 被 自动 跳 过 。 虽 说 符合 要 求 ， 但 如 果 忘 记 了 这 一 点 ， 就 
会 非常 纳 问 ， 不 明白 为 何 会 出 现 这 种 状况 。 不 过 实际 常用 的 CS V. 数据 大 部 分 应 该 是 类 型 一 致 的 ， 
所 以 应 该 没什么 大 问题 。 

另 一 个 是 表 头 。 其 实 有 不 少 CSV 数据 是 没有 表 头 的 ， 而 且 所 有 字段 都 是 字符 串 。 目 前 的 实现 
会 把 正常 的 记录 当成 表 头 ， 这 样 就 丢失 了 第 一 行 的 数据 。 这 是 非常 严重 的 问题 ， 所 以 要 么 允许 用 户 
通过 可 选项 指定 是 和 否 有 表 头 ， 要 么 设计 出 更 加 智能 的 表 头 判断 条 件 ， 否 则 该 功能 可 能 就 无 法 达到 实 
用 程度 。 
通过 这 次 实现 我 认识 到 CSV 的 解析 非常 复杂 ， 现 在 还 不 能 说 已 经 实现 了 这 个 功能 。 尤 其 是 上 
述 两 个 问题 非常 严重 ， 还 需要 进行 修改 。 









































小 结 


如 果 不 对 照 着 源 代码 来 阅读 本 节 内 容 ， 泡 怕 不 容易 理解 。 大 家 可 以 下 载 https://github.com/matz/ 
streem.git 里 的 源 代码 ， 一 边 看 src/csv.c 一 边 阅读 本 节 ， 将 有 助 于 理解 。 本 节 内 容 对 应 的 源 代码 的 标 
签 是 201509。 





时 光 机 专栏 
CSV 处 理 是 很 久 以 前 实现 的 











本 节 是 2015 年 9 月 刊 中 刊登 的 内 容 。Streem 的 基本 部 分 已 经 差不多 完成 了 ， 后 面 就 以 添 
加 功能 ( 以 及 提高 完成 度 和 改善 性 能 ) 为 主 。 首 先 着 手 实 现 的 就 是 对 数据 处 理 语言 来 说 非常 基 
本 的 CSV 读 取 功能 。 
也 许 读 者 已 经 注意 到 了 ， 本 节 比 前 后 几 节 的 连载 日 期 都 要 早 。 虽 然 在 成 书 时 把 这 一 节 内 容 
放 在 了 后 面 ， 但 在 连载 中 它 很 早 就 出 现 了 。 本 节 提 到 的 把 数组 与 map 看 作 同 样 的 数据 类 型 这 一 
点 ， 其 实 是 3-2 节 介 绍 的 Streem 面向 对 象 功能 的 基础 。 如 果 有 时 间 重 读本 书 ， 按 照 杂志 连载 
顺序 来 读 也 别有一番 趣味 。 



























































































































































时 间 表 示 


本 节 将 介绍 时 间 表 示 和 时 间 操 作 的 实现 ; 按照 国际 标准 表示 时 间 ， 同 时 提供 时 区 支 



































持 ， 以 及 进行 时 间 的 加 法 和 减法 运算 。 由 于 UNIX 标 准 的 API 不 够 丰富 ， 所 以 我 在 设计 
和 实现 时 花费 了 很 多 精力 。 


























本 节 我 们 来 思考 一 下 时 间 表 示 和 时 间 操 作 的 实现 。 在 流 数据 处 理 中 ， 有 时 也 需要 进行 时 间 操作 。 

我 们 以 一 个 任务 为 例 来 进行 说 明 。 假 设 要 根据 东京 的 降水 量 数据 绘制 图 表 ， 也 就 是 说 ， 要 读 取 
某 年 某 月 某 日 下 了 几 毫 米 的 雨 这 种 CSV 数据 ， 然 后 绘制 成 图 表 ， 也 许 还 要 计算 月 平均 降水 量 或 者 
年 平均 降水 量 等 。 在 这 种 情况 下 ， 就 需要 把 时 间作 为 数据 进行 处 理 了 。 

时 间 (或 者 时 刻 ) 在 多 数 情况 下 使 用 以 下 字符 串 表 示 。 














2016-06-01 


字符 串 虽 然 可 以 比较 大 小 ， 但 是 不 容易 计算 经 过 的 天 数 等 。 
在 编程 中 ， 把 时 间作 为 时 间 类 型 来 处 理 ， 是 最 正常 不 过 的 需求 。 





时 间 与 时 刻 


“时 间 ” 这 个 单词 有 多 种 含义 ， 既 可 以 用 来 表示 时 间 的 长 度 (例如 撰写 这 篇 稿件 花 了 2 周 的 时 
间 )， 也 可 以 用 来 表示 某 个 瞬间 的 时 间 的 位 置 (例如 现在 的 时 间 是 2016 年 5 月 1 日 上 午 10 点 )。 这 
种 模棱两可 的 表达 经 常会 招致 混乱 ， 所 以 后 面 我 会 用 “时 刻 ” 来 表示 某 个 特定 的 时 间 的 位 置 ， 用 英 
语 表示 就 是 “time stamp”。 

而 时 间 的 长 度 用 英语 表示 是 “duration”， 目 前 我 还 没有 想到 合适 的 词语 ， 应 该 可 以 称 之 为 “时 
间 间 隔 ”“ 持 续 时 间 ” 等 吧 。 也 有 人 特意 把 “时 间 ” 这 个 词 限定 为 这 个 含义 来 使 用 ， 但 我 觉得 有 时 
这 也 会 让 人 混乱 。 









































用 字符 串 表 示 时 刻 


时 刻 的 表示 方法 各 种 各 样 ， 尤 其 是 日 期 的 表示 方法 与 文化 有 着 紧密 关系 ， 比 如 日 本 人 会 使 用 下 
面 这 种 形式 表示 日 期 。 
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平成 28 年 5 月 1 日 

















而 美国 人 则 经 常 使 用 下 面 这 种 形式 。 


May 1 2016 


到 了 欧洲 ， 日 期 的 表示 顺序 就 变 成 了 下 面 这 样 。 


1 May 2016 








日 期 的 表示 方法 不 统一 会 导致 混乱 ， 于 是 规定 了 日 期 和 时 刻 的 表示 方法 的 国际 标准 便 应 运 而 
生 ， 这 个 标准 就 是 ISO 8601。 
ISO 8601 使 用 下 面 这 两 种 形式 表示 日 期 。 



































20160501 ( 基本 形式 ) 











或 者 

















2016-05-01 ( 扩展 形式 ) 




















这 两 种 形式 都 是 按照 年 一 月 一 日 的 顺序 来 表示 日 期 的 。 如 果 日 期 中 也 包含 经 过 的 时 间 ( duration ), 
就 写成 


20160501T100000-40900 


或 者 


2/0176—05/-071150:2:00/2000::09/2:00 





由 于 基本 形式 难以 与 数值 区 分 ， 所 以 大 多 数 情况 下 会 使 用 扩展 形式 来 表示 日 期 。 





时 刻 的 表示 方法 

















使 用 ISO 8601 就 可 以 用 字符 串 表 示 时 刻 了 ， 但 是 用 字符 串 表 示 时 刻 不 便于 进行 程序 处 理 ， 因 
此 我 考虑 引入 时 刻 类 型 。 那 么 ， 如 何 表示 时 刻 才 比较 合适 呢 ? 

时 间 是 从 过 去 到 未 来 一 维 地 流逝 的 东西 ， 因 此 用 数值 表示 比较 合适 。 很 多 系统 将 某 个 特定 的 时 
刻 ( 称 为 纪元 时 刻 ) 作为 原点 ， 用 从 这 个 原点 开始 经 过 的 时 间 来 表示 时 刻 。 
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包含 Linux 在 内 的 很 多 UNIX 系统 把 1970 ^E 1 H 1 H 00:00 (UTC) 作为 纪元 时 刻 ， 并 用 秒 
表示 经 过 的 时 间 ， 所 以 2016-05-01T10:00Z 可 以 用 从 纪元 时 刻 1970-01-01T00:00 开始 经 过 的 秒 数 
1 462 096 800 来 表示 。 人 例如， 获取 当前 时 刻 的 系统 调用 time (2) 是 下 面 这 个 API。 














eime c © = Cims ne 





t 是 以 整数 形式 返回 的 从 纪元 时 刻 开始 经 过 的 秒 数 。 

不 过 并 不 是 所 有 问题 都 能 用 秒 单位 解决 ， 有 时 也 需要 取出 1 秒 以 下 的 信息 。UNIX 可 能 是 考虑 
到 了 这 一 点 ， 从 而 增加 了 新 的 系统 调用 gettimeofday (2) ， 这 个 调用 把 秒 以 下 的 时 刻 用 微 秒 这 个 
单位 返回 。 





struct timeval tv; 
gettimeofday(&tv, NULL); 
tv.tv sec; // => 秒 数 
tv.tv usec; // -» 微 秒 

















大 家 可 能 会 感到 奇怪 :“ 明 明 是 微 秒 ， 为 什么 变量 名 用 usec 呢 ?” 据 说 这 是 因为 字母 u 与 表示 
“ 微 ”( 一 百 万 分 之 一 ) 的 希腊 字母 a (miu) 形似 。 

后 来 ， 可 能 因为 需要 更 加 精确 地 分 解 时 刻 ，POSIX.1-2008 中 增加 了 系统 调用 clock_ 
gettime (2), 





























struct timespec tp; 

clock gettime (CLOCK REALTIME,&tp) 
tp.tv sec; // -» 秒 数 

tp.tv nsec; // => 纳 秒 





clock gettime (2) 以 纳 秒 为 单位 来 表示 不 足 1 秒 的 部 分 。 
虽然 UNIX 使 用 从 1970 年 1 月 1 日 开始 的 秒 数 来 表示 时 刻 ,但 并 不 是 所 有 系统 都 是 这 么 做 的 。 
比如 Windows NT 就 把 1601 年 1 月 1 日 当 作 纪元 时 刻 ， 并 以 100 纳 秒 为 单位 来 表示 经 过 的 时 间 。 


























时 刻 类 型 的 结构 体 
struct strm time i 


下 面 我 们 就 把 表示 时 刻 的 数据 类 型 添加 到 Streem 里 ， 实 现 方 PTOL AT REDEE 
法 与 以 前 介绍 的 kvs 的 实现 方法 基本 相同 。 Pu d cta 

首先 定义 表示 时 刻 的 结构 体 ( 图 5-26 )。 在 拥有 方法 的 结构 体 。 ] ， E 
之 前 配置 下 面 这 个 宏 。 


























5-26 ”时 刻 类 型 的 结构 体 
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STRM AUX HEADER; 





然后 定义 表示 实际 时 刻 的 类 
型 struct timeval 和 表示 时 struct timeval [ 

差 的 整数 utc offset。struct ness dun /* E x 
timeval 结构 体 的 定义 如 图 5.27 所 SAM tv usec; /* microseconds */ 
示 ， 它 以 微 秒 级 的 精度 来 表示 时 刻 。 

在 决定 使 用 struct timeval 5-27 struct timeval 的 定义 
时 ， 我 注意 到 man 文档 里 有 图 5-28 
那样 的 描述 。“ 不 推荐 ”是 说 状态 不 
faio obsolete 表示 “已 过 时 ”， 
与 “将 被 废弃 ”的 意思 相近 。 

就 在 我 想 不 得 不 去 认真 考虑 
clock gettime () 的 使 用 时 ， 调 翻译 ，POSIX.1-2008 不 推荐 使 用 gettimeofday () ， 推 荐 
查 中 发 现 Mac OS 好 像 到 现在 都 还 没 。” 侵 用 clock_gettime (2) o 
有 实现 clock gettime ()。 虽 然 
很 难 想象 Mac OS 到 现在 还 没有 实现 
POSIX.1-2008 这 个 已 经 定义 了 很 多 年 的 标准 ， 但 是 考虑 到 兼容 性 的 问题 ， 我 只 好 放弃 使 用 clock | 
gettime () ,最 后 决定 使 用 可 靠 旦 口碑 良好 的 gettimeofday () 。 

utc offset 以 秒 为 单位 表示 与 UTC 的 时 差 ， 比 如 日 本 比 UTC 早 了 9 个 小 时 ， 那 么 表示 日 本 
时 刻 的 utc offset 就 是 下 面 这 个 值 。 





























POSIX.1-2008 marks gettimeofday() as 
obsolete, recommending the use of clock 
gettime(2) instead. 









































图 5-28 gettimeofday 的 man 文档 的 记载 
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从 原理 的 角度 考虑 ， 其 实时 刻 类 型 中 不 需要 时 差 信息 。 对 于 表示 某 个 瞬间 的 时 刻 来 说 ， 时 差 是 
没有 意义 的 。 日 本 的 晚上 9 点 ， 也 就 是 UTC 的 正午 ， 在 本 质 上 是 同一 个 时 刻 ， 只 不 过 表示 方式 不 
同 而 已 。 

把 时 刻 转换 为 字符 串 形 式 时 需要 使 用 时 差 信 息 。“ 某 个 时 刻 是 9 点 ”这 一 信息 ， 在 没有 时 区 信 
息 的 情况 下 是 没有 意义 的 。 

对 于 有 时 区 信息 的 时 刻 ， 比 如 以 下 面 这 种 方式 表示 的 时 刻 ， 一 般 情况 下 都 希望 默认 以 本 身 的 时 
区 信息 表示 。 























2016-05-017T10:00:00-409:00 








所 以 我 决定 在 指定 了 时 区 的 时 刻 数据 里 默认 搬入 时 差 信息 。 
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UTC 





在 前 面 的 内 容 中 UTC 这 个 术语 出 现 了 多 次 ， 我 都 还 没有 向 大 家 介绍 ， 下 面 就 来 详细 介绍 一 下 。 
UTC ( Coordinated Universal Time， 协 调 世 界 时 ) 是 时 刻 的 原点 。 至 于 为 什么 没有 按照 首 字 母 取 和 名 
为 CUT， 其 中 有 着 比较 复杂 的 原因 。 据 我 了 解 ， 在 制定 规范 时 ， 关 于 这 个 用 语 的 正式 名 称 ， 在 英语 
Coordinated Universal Time 和 法 语 Temps Universel Coordonne 之 间 发 生 了 激烈 的 争执 ， 最 终 作 为 妥 
协 采 用 了 两 者 之 外 的 UTC。 

在 这 之 前 ， 时 刻 的 原点 被 称 为 GMT (Greenwich Mean Time， 格 林 尼 治平 时 )， 这 个 名 字源 自 
国 格林 尼 治 天 文 台 。 与 通过 观测 天 体 得 出 的 GMT 时 间 相 比 ，UTC 追求 更 加 精确 的 时 间 ， 它 是 通 
将 饮 -133 振动 91 亿 9263 万 1770 次 的 时 间作 为 1 秒 的 原子 钟 求 得 的 。 

由 于 地 球 的 自转 速度 不 固定 ， 所 以 GMT 和 UTC 之 间 会 产生 微小 的 差异 。 为 了 修正 这 个 差异 ， 
需要 在 极 少数 的 情况 下 插入 头 秒 。 

国 秒 是 一 个 很 及 烦 的 问题 ， 比 如 在 2012 年 7 月 1 日 插入 头 秒 后 就 引起 了 大 范 于 的 问题 。 



























































时 刻 类 型 数据 的 生成 








下 面 就 来 思考 一 下 如 何 生成 时 刻 类 型 的 数据 。 生 成 当前 时 刻 的 now C) 函数 的 实现 如 图 5-29 所 
示 。now() 有 一 个 可 以 省 略 的 参数 ， 如 果 指 定 了 这 个 参数 ， 其 值 就 会 成 为 时 区 信息 〈 表 5-10 )。 





























Stacie dme 
time now(strm stream* strm, int argc, strm value* args, strm value* ret) 
struct timeval tv; 


Tne Wee) (OuEiEEEEE 


switch (argc) ( 
aseo 
uscNoRRScHE Ebumegsllocatoftits e 
break; 
case 1: /* timezone */ 
{ 
trm gcri eer = stan velve (ng 
UCG Orrek = pare talorcim Ser perleti); Serm ser a tS y 
if (utc offset == TZ FAIL) 4 
strm raise(strm, "wrong timezeone"); 
return STRM NG; 
} 
} 


break; 

default: 
strm raise(strm, "wrong £$ of arguments"); 
return STRM NG; 


) 


gettimeofday(&tv, NULL); 


meturmtimesaltedsovrEtceNotRhsebrEE et) 


E 5-29 now() 的 实现 


还 有 其 他 指定 时 区 的 方法 ， 比 如 使 用 “JST” 这 样 
的 省 略 形式 表示 日 本 标准 时 间 ， 或 者 使 用 “Asia/Tokyo” 
这 样 的 城市 名 来 指定 时 区 。 但 是 Japan Standard Time 与 
Jamaica Standard Time (假设 存在 这 个 标准 ) 可 能 会 发 生 
混淆 ， 而 且 还 需要 世界 各 地 城市 名 的 列表 ， 所 以 这 次 我 没 
有 采用 这 些 方法 。 

time now() 只 负责 处 理 参数 , 通过 gettimeofday (2) 
获取 当前 时 刻 ， 调 用 

如 图 5-30 所 示 , time alloc() 的 实现 一 点 都 不 



























































time alloc(), 





难 。 在 进行 了 Streem 对 象 初始 化 (type 和 ns 的 设置 ) 之 后 ， 对 传 来 的 struct timeval 类 型 
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R 5-10 指定 时 区 的 写法 


Z 
+09:00 
+0900 
+900 
-09:00 
-0900 
-900 


UTC 

UTC+9 时 间 

UTC+9 时 间 ( 省 略 形式 ) 

UTC+9 时 间 ( 进一步 省 略 的 形式 ) 
UTC-9 时 间 

UTC-9 时 间 ( 省 略 形式 ) 








UTC-9 时 间 ( 进一步 省 略 的 形式 ) 





的 tv_usec 进行 异常 值 检 查 ， 如 果 是 负 值 或 者 超过 1 秒 的 值 ， 就 对 其 进行 调整 。 


Static int 


tenegesiiteel is truetasimevassstve tmt CO fis ec termi" ese t) 


1 


simum mes matslec(shizecotbi stent stmilesime) Es 


if (!t) return STRM NG; 
t-»type = STRM PTR AUX; 





t-»ns - time ns; 
while (tv-»tv usec < 0) { 
(Exr- Ew XXe 
tv-»tv usec «- 1000000; 
) 
while (tv-»tv usec »- 1000000) { 
tv-»tv Secct; 
tv-»tv usec -- 1000000; 


j 
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memcpy (&t->tv, tv, sizeof (struct timeval)); 
pco CN Se 

sreg = Seru Jess valvel) p 

return STRM OK; 


图 5-30 time alloc() 的 实现 


时 差 的 计算 方法 


实际 上 ， 比 较 难 实现 的 不 是 上 面 讲 的 这 些 ， 而 是 计算 本 地 时 间 与 UTC 的 时 差 的 time_ 
localoffset() KU 

我 一 开始 想到 的 办 法 是 通过 计算 本 地 时 间 与 1970-01-01T00:00:00 相对 应 的 时 刻 来 求 时 差 。 不 
过 我 通过 Twitter 了 解 到 在 某 些 情况 下 1970 年 与 现在 的 时 差 存在 不 同 。 

确实 ， 由 于 日 本 的 时 区 基本 没有 变化 ， 所 以 大 家 很 容易 忘记 很 多 国家 引入 了 夏令 时 。 据 说 日 本 
也 在 1948 年 到 1952 年 的 这 段 时间 实 施 了 夏令 时 。 这 样 看 来 ， 在 很 多 情况 下 不 能 以 1970 年 1 月 为 
基准 来 计算 时 差 。 

正当 我 苦恼 该 如 何 去 做 的 时 候 ， 从 Twitter ^ static int 
上 知道 了 使 用 gmtime (3) 和 mktime(3) 可 time localoffset() 
以 轻松 求 得 时 差 ", 而 且 代码 还 不 到 140 个 字符 ， — 0| 






























































giae e ime castor M 








真是 令 人 惊讶 。 

我 以 在 Twitter 上 学 到 的 代码 为 基础 , 并 对 | af (Qocaloffset cc 1) ( 
其 进行 了 一 些 改造 ， 形 成 了 如 图 5-31 所 示 的 time t now; 
代码 。 严 格 来 说 ， 图 5-31 的 代码 还 不 支持 在 程 SEE im smy 


序 运 行 过 程 中 时 区 发 生变 化 的 情况 ， 这 里 我 们 Ge 


先 不 考虑 这 个 问题 。 如 果 将 来 在 世界 到 处 飞 的 














now - time (NULL); 





人 的 设备 上 也 运行 Streem 了 ， 那 时 再 考虑 这 个 ee 

问题 。 d = difftime (now，mktime(&gm) ) ; 
虽然 我 是 这 么 想 的 ， 但 由 于 有 些 国家 要 M ME 

进行 冬令 时 和 夏令 时 的 切换 ， 而 切换 时 程序 很 





return localoffset; 





g 


能 正在 运行 ， 所 以 还 是 要 考虑 如 何 解决 这 个 。 ，} 
[is 题 。 


这 段 代 码 的 关键 在 于 gmtime(3) 的 使 用 图 5-31 本 地 时 间 的 时 差 的 计算 方法 


a 





(D https;//twitter.com/unak/status/717026294337122304 
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方法 。gmtime (3) 函数 把 time t 表示 的 以 秒 为 单位 的 当前 时 刻 ， 转 换 为 分 开 表 示 UTC 的 日 期 和 
时 间 的 struct tm. Meri Ad struct tm 的 函数 是 localtime (3) ( 带 _r 的 是 它 的 
线程 安全 版 )。 另外，mktime (3) KAHT localtime (3) 相反 的 操作 , 将 struct tm 转换 
为 time t。 

把 使 用 gmtime (3) 得 到 的 UTC 形式 的 日 期 用 mktime (3) 转换 为 本 地 时 间 形 式 的 time_t， 
就 可 以 得 到 只 有 时 差 部 分 不 同 的 时 刻 。 之 后 再 用 difftime (3) 计算 时 间 间 隔 ， 就 可 以 得 到 以 秒 为 
单位 的 时 差 了 。 

UNIX 的 时 间 函 数 有 以 秒 为 单位 的 ， 也 有 以 微 秒 为 单位 的 ， 还 有 以 纳 秒 为 单位 的 ， 这 些 时 间 函 
数 都 混杂 在 一 起 ， 而 且 根 据 平台 的 不 同 ， 有 的 函数 能 用 ， 有 的 不 能 用 ， 另 外 处 理 时 差 的 函数 也 不 够 
全 面 ， 所 以 老实 说 不 是 很 好 用 ， 而 我 试 着 把 各 个 功能 组 合 起 来 之 后 ， 没 想到 效果 还 不 错 。 


















































时 刻 操作 的 实现 











下 面 来 定义 时 刻 类 型 的 方法 ， 我 们 暂时 先 定义 表 5-11 中 的 4 个 方法 。 
表 5-11 时 刻 类 型 的 方法 











名 称 功能 备考 

E 时 刻 的 加 法 运算 时 刻 + 数值 ( 秒 数 ) 一 时 刻 

- 时 刻 的 减法 运算 “时 刻 - 时 刻 ” 或 者 “时 刻 -数值 ” 
number 转换 为 浮 点 数 用 浮 点 数 获取 从 纪元 时 刻 开 始 的 秒 数 
string 转换 为 字符 串 时 区 参数 可 以 省 略 














需要 注意 的 是 减法 运算 方法 的 类 型 。 从 时 刻 减 去 时 刻 可 以 得 到 经 过 时 间 ， 这 个 结果 该 用 什么 类 
型 表示 是 一 个 邻 人 头疼 的 问题 。 可 以 想到 的 方案 有 引入 表示 duration Rin. 以 及 用 数值 
( 浮 点 数 ) 表示 经 过 的 秒 数 。 

在 采用 浮 点 数 的 情况 下 ， 让 人 担心 的 是 泽 点 数 可 能 无 法 表示 所 有 的 时 刻 信息 。struct 
timeval 的 大 小 是 64 位 ， 虽 然 浮 点 数 的 大 小 也 是 64 位 ， 但 是 可 以 实际 用 于 表示 数值 的 只 有 尾数 
部 分 的 52 位 。 微 秒 部 分 最 大 也 不 到 100 万 ,用 20 位 就 可 以 表示 。 因 此 ， 到 秒 数 部 分 能 够 用 32 位 
表示 的 2038 年 为 止 ， 浮 点 数 尚且 可 以 应 付 。 

我 比较 重视 代码 的 简洁 程度 ， 所 以 这 次 选择 使 用 浮 点 数 来 表示 时 刻 之 间 相 减 的 结果 。 

男 外 还 需要 注意 ， 除 了 时 刻 和 时 刻 之 间 以 外 ， 时 刻 和 数值 之 间 也 可 以 进行 减法 运算 。 字 符 串 转 
换 函 数 string () 能 够 根据 允许 省 略 的 时 区 参数 ， 用 任意 时 区 表示 时 刻 。 

































































用 任意 时 区 表示 时 刻 

















用 任意 时 区 表示 时 刻 的 处 理 需要 费 一 些 功夫 才能 实现 ， 所 以 这 里 介绍 一 下 。 目 前 还 不 知道 用 什 
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么 方法 把 某 个 时 刻 转换 为 任意 时 区 的 时 刻 (struct tm )。 这 是 因为 UNIX 的 时 间 函 数 只 能 对 UTC 
和 本 地 时 间 的 其 中 一 个 进行 操作 。 

这 个 处 理 看 起 来 很 难 ， 其 实 稍微 想 想 办 法 就 可 以 实现 。 函 数 get_tm 可 以 从 time t H utc. 
offset 得 到 该 时 区 的 struct 





























tm， 其 实现 如 图 5-32 所 示 。 static void 
实现 竟 如 此 简单 ， 可 能 会 让 get tm(time t t, int utc offset, struct tm* tm) 
人 感到 有 些 扫兴 。 针 对 与 任意 时 i 


区 的 UTC 只 


[ES 


只 有 时 差 部 分 不 同 的 


gmtime r(&t, tm); 


HZ], EH gmtime r(3) 就 可 } 
以 得 到 该 时 区 的 struct tm 了 。 




















仔细 想 想 的 确 如 此 ， 不 过 我 还 是 ”图 5-32 获取 任意 时 区 的 tm 的 函数 
感到 有 些 意外 。 


时 刻字 面 量 


这 样 就 在 Streem 中 引入 了 时 刻 类 型 ,我 想 趁 这 个 机 会 再 引入 时 刻字 面 量 


> 











直接 记载 数值 和 字 








符 串 的 常量 )。 虽然 拥有 时 刻字 面 量 的 编程 语言 并 不 多 ,但 考虑 到 在 数据 处 理 中 时 刻 处 理 的 重要 性 ， 
































设置 字面 量 也 是 一 件 很 正常 的 事情 。 
这 就 涉及 如 何 表示 时 刻字 面 量 的 问题 了 ， 可 能 的 话 我 想 使 用 ISO 8601。 不 过 遗憾 的 是 ， 下 面 这 
种 写法 看 起 来 像 是 整数 的 减法 运算 ， 所 以 不 能 直接 使 用 。 














S106 IOS 





























01 








于 是 我 参考 了 JIS x 0301 的 做 法 ， 在 日 期 之 间 使 用 “.” 来 区 分 。 也 就 是 说 ，Streem 的 时 刻 表 














示 会 变 成 下 


O00 
2015 ..(9)5) 
20/1) 5 (0); ; 
20.5 POSE 





1 这 样 。 


01 

01T00:00:002Z 
01T00:00:00.342Z2 
01T00:00:00-409:00 








虽然 我 觉得 这 么 做 很 方便 ， 了 表示 时 区 的 加 号 和 减 号 ， 这 就 可 能 会 带 来 一 
些 混乱 。Ruby 中 没有 时 刻字 面 量 ， 它 是 通过 下 面 这 种 形式 的 方法 调用 来 生成 时 刻 对 象 的 。 











Time.new(2016,5,1,0,0,0) 
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我 不 确定 这 种 形式 是 否 可 行 ， 因 此 感到 很 烦恼 。 不 过 既然 好 不 容易 实现 了 时 刻字 面 量 ， 就 先 予 
以 保留 ， 先 使 用 一 段 时 间 看 看 ， 如 果 用 起 来 感觉 不 好 ， 以 后 也 可 以 删除 。 这 也 是 还 没有 用 户 的 语言 
可 以 不 用 顾虑 的 地 方 。 









































时 刻字 面 量 的 实现 





时 刻字 面 量 的 实现 并 不 难 。 在 语法 分 析 器 lex.l 里 添加 解释 时 刻字 面 量 的 正则 表达 式 之 后 ， 再 添 
加 表示 时 刻字 面 量 的 节点 即 可 。 
lex. 实际 修改 的 地 方 如 图 5-33 所 示 。 





























DATE [0-9] «V. [0-9] +\. [0-9]+ 
TIME [0-9] +":"[0-9]+(":"[0-9]+)? (V. [0-9]+)? 
TZONE "2" | [+-] [0-9]+(":"[0-9]+)? 


9. 9. 
$$ 








(DATE) ("T" (TIME) (TZONE)?)? ( 





lval-»nd - node time new(yytext, yyleng); 
LEX RETURN(lit time); 


E 





5-33 lex.l 修改 的 地 方 


之 后 使 用 strptime (3) 等 把 字符 串 形 式 转换 为 struct timeval 即 可 。 灵 活 使 用 已 实现 的 
函数 就 不 会 有 任何 困难 了 。 

















CSV 的 时 刻 支 持 














比 时 刻字 面 量 更 重要 的 是 CSV 的 时 刻 支 持 。 在 预想 的 Streem 用 例 中 ， 日 期 和 时 刻 数据 最 重要 
的 来 源 就 是 CSV 文件 。 

现在 Streem 可 以 自动 判断 CSV. 文件 的 各 个 字段 是 字符 串 还 是 数值 ， 不 过 我 还 会 在 此 基础 上 增 
加 对 时 刻 数据 的 支持 。 如 果 字 段 的 值 是 ISO 8601 形式 或 者 Streem 的 时 刻字 面 量 形式 ， 就 把 它 当 成 
时 刻 数 据 转化 为 时 刻 对 象 。 

我 以 为 实现 很 简单 ， 可 实际 动手 去 做 时 ， 却 发 现 浮 点 数 的 实现 代码 里 有 重大 bug， 修 复 这 个 
bug 反倒 费 了 不 少 事 。 

到 这 里 才 发 现在 这 一 系列 开发 中 都 没有 被 发 现 的 重大 bug， 看 来 是 时 候 对 语言 的 语法 进行 测 
试 了 。 
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小 结 


这 次 为 Streem 添加 了 支持 时 刻 数据 的 功能 。 作 为 一 名 长 年 使 
UNIX 提供 的 功能 和 API 感到 很 满意 ， 
处 理 的 既 不 是 UTC 也 不 是 本 地 时 间 ， 而 是 时 


这 次 要 
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] UNIX 的 程序 员 ， 我 一 直 都 对 
不 过 这 次 我 注意 到 它 的 时 间 相 关 的 API 还 不 够 完整 。 尤 其 是 
区 ， 这 就 更 加 困难 了 。 





时 间 和 历法 的 处 理 本 来 就 相当 复杂 ， 在 哪里 进行 API 的 设计 都 很 麻烦 。Ruby 也 不 例外 ，Ruby 


处 理 时 刻 的 Time 类 和 处 理 日 期 的 Date 类 在 设计 
API 设 计 的 相关 内 容 可 以 参考 田中 哲 的 《API 设 计 案 例 学 习 》 一 书 。 这 本 书 花 了 整整 一 章 来 介 





绍 时 间 
未 知 世 























时 也 考虑 到 了 各 种 场景 ， 因 而 变 得 相当 复杂 。 


设计 上 的 困难 ， 了 解 这 种 设计 过 程 的 人 读 起 来 肯定 会 感同身受 ， 不 了 解 的 人 也 可 以 抱 着 探索 











界 的 心情 去 读 一 读 这 本 书 。 


完美 地 支持 了 多 个 时 区 

















本 节 是 2016 年 6 月 刊 中 刊登 的 内 容 。 我 们 在 
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容易 把 它 看 作 一 个 数学 意义 上 的 值 。 
可 是 一 旦 在 编程 中 处 理 时 刻 和 时 间 ， 就 会 发 现时 间 中 竟然 包含 了 许多 与 文化 和 政治 相关 的 
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Ch 


zo kbh 




















时 光 机 专栏 


E 思 考 时 间 是 什么 的 时 候 ， 会 认为 它 是 一 种 从 
过 去 流向 未 来 的 非常 简单 的 东西 。 此 外 ， 时 间 也 经 常 作 为 一 个 基本 的 物理 值 出 现 ， 所 以 我 们 也 














0， 时 刻 的 表示 方法 就 与 文化 息息相关 。 各 个 国家 和 地 




















9 ， 何 时 插入 痿 秒 也 是 根据 观测 发 现 的 差异 通过 会 议 来 决定 的 。 


UNIX 和 对 其 进行 标准 化 的 POSIX 原本 似乎 不 太 关 心 时 刻 和 








富 。 这 次 我 只 使 用 POSIX 























Th 











时 间 的 处 理 ， 所 以 API 不 够 丰 


区 的 时 区 和 时 差 是 由 政治 决定 
































的 函数 对 处 理 多 个 时 

















， 但 是 比 我 预想 中 更 加 顺利 ， 对 此 我 感到 心满意足 。 





(OD gd 








BA TAPI FFT IT—ÉÁAAET A. 























前 暂 无 中 文 版 。 一 一 译 者 注 


区 的 难题 发 起 了 正面 挑战 ， 量 














有 然 这 个 过 程 非常 艰 





统计 基础 的 基础 


大 数据 是 现在 的 一 个 非常 热门 的 话题 ， 其 实数 学 在 很 早 之 前 就 致力 于 处 理 大 型 数据 ， 















































这 项 工作 被 称 为 统计 。 本 节 将 介绍 如 何在 Streem 中 实现 统计 的 基础 部 分 。 





让 我 有 些 难 以 启齿 的 是 ， 我 当 学 生 的 时 候 就 不 擅长 数学 。 通 常人 们 认为 编程 属于 理工 科 ， 理 工 
科 的 人 应 该 很 擅长 数学 ， 因 此 很 多 人 对 我 不 擅长 数学 感到 意外 ， 或 者 觉得 我 虽然 不 擅长 数学 ， 但 是 
也 不 至 于 太 差 。 

可 实际 上 我 是 真 的 不 擅长 数学 。 上 高 中 时 ， 数 学 III 的 成 绩 得 过 “1”( 当时 采用 的 是 10 分 制 评 
分 标准 ), 高 三 第 一 学 期 的 定期 考试 ”的 平均 分 只 有 16 分 。 无 论 是 高 考 的 时 候 , 还 是 考 上 大 学 之 后 ， 
数学 都 让 我 非常 痛苦 。 

现在 回想 起 来 ， 应 该 是 我 对 数学 和 算术 的 手动 计算 ( 我 觉得 交 给 计算 机 做 就 好 了 ) 提 不 起 劲 
来 ， 才 导致 我 对 数学 不 感 兴趣 ， 让 我 经 历 了 那么 多 挫折 。 我 现在 也 依然 认为 不 应 该 让 容易 出 错 的 人 
类 去 做 需要 保证 正确 性 的 计算 。 

当然 ， 计 算 机 科学 是 以 数学 为 根基 的 ， 与 数学 有 着 不 可 分 割 的 关系 ， 但 这 并 不 是 说 编程 的 所 有 
内 容 都 需要 用 到 数学 。 很 多 编程 活动 帮 以 把 握 用 户 需求 为 主 ， 与 数学 并 没有 很 大 的 关系 。 万 其 是 纺 
程 语 言 的 设计 和 用 户 接 口 (UI) 这 些 我 很 早 就 开始 感 兴趣 的 领域 ， 更 是 很 少 用 到 数学 。 

我 曾经 说 过 “数学 没什么 用 ”这 样 的 大 话 ， 但 是 在 Ruby 的 开发 过 程 中 却 屡屡 遇 到 需要 数学 发 
挥 重要 作用 的 情况 。 在 社区 成 员 的 帮助 下 ( 请 他 们 指出 错误 )， 我 也 一 点 点 地 解决 了 不 少 问题 ,不 
过 现在 还 是 觉得 自己 不 擅长 数学 。 

刚才 说 了 不 少 题 外 话 ， 现 在 我 们 回 到 正题 。 实 现 了 流 编程 的 Streem 最 适合 应 用 的 场景 恐怕 就 
是 数据 处 理 了 ， 比 如 读 取 CSV 格式 的 测试 成 绩 ， 并 进行 成 绩 处 理 。 这 样 我 就 不 能 以 自己 不 擅长 数 
学 为 借口 了 ， 下 面 我 们 就 来 一 起 看 一 下 数据 统计 处 理 的 基础 。 
























































总 和 与 平均 数 


首先 来 看 一 下 小 学 数学 水 平 的 平均 数 。 我 问 过 上 小 学 的 女儿 ， 她 说 平均 数 是 小 学 五 年 级 学 的 。 
我 从 女儿 那里 借 来 了 教科 书 ， 书 里 是 这 样 定义 平均 数 的 : 








中 一般 指 每 学 期 的 期 中 和 期 末 考 试 ， 根 据 学 校 的 不 同 也 会 有 差别 。 一 一 译 者 注 
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把 这 上 


l^ 


平均 数 = 总 和 - 个 数 





平均 数 表 示 一 组 数据 中 所 有 数据 之 和 除 以 这 组 数据 的 个 数 。 假 如 期 中 考试 是 14 分 ， 期 末 考 试 
是 18 分， 那么 按照 下 面 的 计算 过 程 ， 平 均 分 就 是 16 分 。 














(14+18) = 上 2=16 














到 5-A 节 为 止 ，Streem 已 经 提供 了 计算 流 中 数据 个 数 的 count () 和 计算 流 中 数据 之 和 的 sum ( ) 
函数 组 合 起 来 ， 计 算 平 均 数 就 变 得 简单 了 。avezrage () 函数 的 实现 如 图 5-34 所 示 。 





struct avg data { 
double sum; 


strm int num; 


ia 


Epoca 
iter avg(strm stream* strm, strm value data) { 
struct avg data* d - strm-»data; 
d-»sum 4«- strm value flt (data); 
d-»num--; 
return STRM OK; 


static int 
avg finish(strm stream* strm, strm value data) { 


struct avg data* d - strm-»data; 


strm emit (strm, strm flt value(d-»sum/d-»num), NULL); 
return STRM OK; 


static int 
exec vsitsasmimgste dmg stent acr sm ng tcm velie Sr e t M s 
avg) ( 

struct avg data* d; 


if (arge !- 0) (f 
strm raise(strm, "wrong number of arguments"); 


return STRM NG; 
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de-amalsloel(saxzeos(strmuet ov 

if (!d) return STRM NG; 

d-»sum - 0; 

cmm aor 

*ret - strm stream value(strm stream new(strm filter, iter avg, avg finish, 
(void*)d)); 

return strm ok; 


) 
5-34 average() 的 实现 
用 exec_avg KZ GE TEA . XH TGXIAT iter avg 函数 来 计算 总 和 ， 最 后 使 用 avg_ 


finish 函数 让 总 和 除 以 个 数 ， 以 此 求 得 平均 数 。 处 理 被 分 制 为 组 成 流 的 各 个 任务 ， 这 一 点 可 能 难 
以 理解 ， 但 其 实 所 做 的 不 过 是 进行 平均 数 的 计算 而 已 。 














总 和 计算 中 的 陷阱 


平均 数 的 计算 很 简单 吧 。 这 是 小 学 五 年 级 的 水 平 ， 当 然 简 单 。 可 是 现实 世界 却 很 残酷 ， 看 起 来 
这 么 简单 的 处 理 却 隐藏 着 陷阱 。 

如 上 所 述 ， 平均 数 的 计算 方法 是 用 总 和 除 以 个 数 ， 可 是 这 个 总 和 的 计算 方法 里 有 一 个 陷阱 ， 那 
就 是 误差 。 

由 于 计算 机 无 法 表示 正确 的 实数 ， 所 以 就 用 浮 点 数 作为 近似 值 来 进行 计算 ,误差 便 随 之 而 来 。 
而 且 浮 点 数 中 有 两 个 与 误差 有 关 的 陷阱 。 

其 中 一 个 陷阱 是 方便 人 类 计算 的 值 对 计算 机 来 说 却 不 见得 方便 。 比 如 0.1 是 一 个 非常 简单 的 值 ， 
表示 1 除 以 10 的 结果 ， 用 浮 点 数 使 用 的 二 进 制 是 除 不 尽 的 。 也 就 是 说 ， 必 须 计 算 到 某 一 位 停止 ， 
这 样 就 产生 了 误差 。 

另 一 个 陷阱 是 浮 点 数 之 间 反 复 计 算 容 易 积累 误差 。 如 果 只 是 计算 几 个 数值 的 总 和 也 许 不 会 有 什 
么 问题 ， 但 假如 是 计算 几 万 个 或 者 几 千 万 个 数值 的 总 和 ， 所 产生 的 误差 可 能 就 无 法 忽略 了 。 比 如 
图 5-35 是 计算 1000 万 个 同一 个 数 的 平均 数 的 程序 。repeat () 函数 用 于 创建 按照 第 2 个 参数 指定 
的 个 数 生成 第 1 个 参数 指定 的 值 的 流 。 


















































repeat(0.15,10000000) | average O | stdout 4 afgfáÓR 
à 0.1499999999834609 


5-85 ”产生 误差 的 平均 数 计算 


为 是 计算 同一 个 数 的 平均 数 ， 所 以 结果 也 应 该 是 这 同一 个 数 ， 可 实际 上 误差 的 累积 会 使 数值 
产生 微小 的 差异 。 
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大 家 也 许 觉 得 总 和 的 计算 不 过 是 单纯 的 加 法 运算 而 已 ， 但 是 如 果 考 虑 到 误差 ， 就 会 发 现实 际 上 
非常 麻烦 。 


Kahan 算法 

















当然 ， 计 算 机 科学 中 有 用 于 解决 这 种 问题 的 方法 。 
Kahan 算法 作为 减 小 计算 浮 点 数 的 总 和 误差 的 算法 而 为 人 所 知 。 该 算法 通过 把 实施 加 法 运算 后 
丢失 的 后 面 几 位 数字 转 入 下 一 次 运算 来 补偿 误差 。 图 5-36 是 维基 百科 里 的 伪 代 码 。 














function kahanSum(input) 

var sum = 0.0 

var @ = 0.0 -— 补偿 用 的 变量 ， 值 为 处 理 过 程 中 丢失 的 后 面 几 位 数字 

EG cmn Co 
y = input[i] - c  4— 如 果 没有 问题 ， 则 c 为 0 
t = sum * y -— 如 果 sum 很 大 ，y 很 小 ， 则 y 的 后 面 几 位 数字 就 会 丢失 
c = (t - sum) - y 4— (t-sum) 相 当 于 y 的 前 面 几 位 数字 ， 所 以 减 去 y 就 可 以 得 到 y 的 后 

位 数字 ( 符号 是 相反 的 ) 

























































































Ej 
- 





















































sum = t -— 数学 上 c 应 该 永远 是 0。 注 意 积极 进行 优化 的 编译 器 | 
next i -— 在 下 一 次 循环 中 考虑 y 丢 失 的 后 面 几 位 数字 























return sum 


图 5-36 Kahan 算法 


出 自 https;//en.wikipedia.org/wiki/Kahan summation algorithm 























使 用 这 个 算法 对 图 5-34 的 实现 进行 修改 ， 如 图 5-37 所 示 ， 需 要 修改 的 只 有 struct avg 
data 和 iter avg KZ. 





struct avg data { 
double sum; 
double c; 
strm int num; 


1s 


ateate ime 

iter avg(strm stream* strm, strm value data) { 
struct avg data* d - strm-»data; 
double iyi [Ex wwedisre sedbedelemue)) c close 
double t - d-»sum - y; 
d=Sc = (t - d-»sum) - y; 
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osum c3 dE 
d-»num--; 
return STRM OK; 


} 


图 5-37 average() 的 改进 
使 用 了 Kahan 算法 


这 样 做 虽然 增加 了 计算 量 ， 但 却 可 以 抑制 误差 的 产生 。 改 进 之 后 再 执行 图 5-35 的 程序 ， 无 论 
重复 多 少 次 ， 都 能 得 到 正确 的 ( 与 原 数值 相同 的 ) 结果 。 

不 只 是 这 个 计算 ， 其 他 包含 浮 点 数 的 计算 都 会 产生 误差 。 在 选择 算法 时 ， 要 尽量 选择 考虑 了 误 
差 的 算法 。 























平均 数 和 方差 ( 标准 差 ) 


通过 平均 数 我 们 可 以 知道 多 个 值 的 整体 趋势 ， 但 平均 数 只 是 “平均 ”了 整体 的 值 ， 必 定 会 丢失 
一 些 信 息 。 假 如 每 个 班级 有 20 人 ，A、B 两 个 班级 参加 满分 为 100 分 的 考试 ，A 班 所 有 人 都 是 50 
分 , B 班 10 个 人 100 分 ，10 个 人 0 分 ,那么 两 个 班 的 平均 分 都 是 50 分 。 
A ERI B 班 的 成 绩 趋势 完全 不 同 ， 但 从 平均 数 上 来 看 1 7 
却 没有 区 别 。 为 了 检测 出 这 种 不 同 ， 在 平均 数 之 外 还 需要 P= (xiu) 
i=] 





























把 握 数值 的 离散 程度 。 数 值 的 离散 程度 用 标准 差 表 示 。 假 
W xp Xa …, x; 的 平均 数 是 1， 标准 差 就 是 图 5-38 的 公式 所 图 5-38 方差 ( 标准 差 的 平方 ) 的 定义 
定义 的 方差 的 正平 方 根 oo 

这 个 公式 对 ( 像 我 这 种 ) 不 太 擅 长 数学 的 人 来 说 很 难 ， 用 语言 描述 就 是 对 各 个 值 与 平均 数 的 差 
求 平方 ， 然 后 求 和 ， 最 后 除 以 个 数 。 

用 这 个 公式 计算 刚才 两 个 班 的 成 绩 ， 得 到 的 结果 是 : A 班 所 有 人 得 分 相同 ， 标 准 差 是 0; B 班 一 
半 人 满分 ， 一 半 人 零 分 ， 标 准 差 约 为 1.3。 从 这 里 就 可 以 看 出 平均 数 同样 是 50 分 ， 但 性 质 完全 不 同 。 














流 算 法 


根据 图 5-38 的 定义 ， 要 想 求 得 标准 差 ， 就 得 先 求 出 平均 数 ， 然 后 再 计算 各 个 值 与 平均 数 的 差 。 
如 果 什 么 都 不 考虑 直接 去 实现 ， 就 需要 在 计算 平均 数 时 读 取 所 有 的 值 ， 之 后 计算 标准 差 时 再 从 头 读 
一 遍 同样 的 值 。 比 如 图 5-39 就 是 一 个 循环 两 次 去 计算 标准 差 的 程序 CH FLIRT ER CC 语言 最 新 
算法 宝典 》 第 254 页 )。 









































© EPEK [CREC 上马 最 新 了 山 了 几 大 人事 典 」 目前 暂 无 中 文 版 。 一 一 译 者 注 
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sir. 35 deg 
xdoxeE ssy fla (Sp 
Static float a[NMAX]; 


eL =s e2 = m M 






































while (scanf ("%f" &x) == 1) { /* 第 1 次 循环 */ 
if (n >= NMAX) return EXIT FAILURE; 
a[ne4] - x; Si «- x; 
} 
si /= n; /* 平均 数 */ 
for (i-0; ien; i««) ( /* 第 2 次 循环 */ 
x ww aliic-cmdqd 2 Rm 3x x 
} 
e2 Scale /* 标准 差 */ 
printf('"TZx: 2d 3EI9Zx: ed WWE: $g", n, s1, s2); 


图 5-39 ”标准 差 的 计算 

但 是 多 次 读 取 同样 的 数据 实在 是 太 浪费 资源 了 ， 更 何况 在 流 处 理 的 情况 下 ， 还 需要 把 处 理 过 程 
中 的 数据 (可 能 会 非常 大 ) 保存 到 某 个 地 方 。 

为 了 避免 造成 资源 浪费 ， 可 以 使 用 流 算法 ， 这 是 一 种 只 需 逐 个 读 取 数据 就 能 够 进行 处 理 的 算 
法 。 我 查 了 一 下 ， 发 现 流 算法 也 可 以 用 于 标准 差 计算 中 。 

根据 《C 语言 最 新 算法 宝典 》 用 如 图 5-40 所 示 的 程序 进行 计算 ， 只 需 从 头 读 一 遍 数据 ， 就 能 
以 较 小 的 误差 计算 出 标准 差 。 





















































mi dy ep 
al a 35 (mL GE 


eL = e2 = m = U; 






































while (scanf ("%f" &x) == 1) { 
Det; (o ese ud 
x -= sl; /* 与 计算 过 程 中 的 平均 数 的 差 */ 
suh se wR mg /* 平均 数 */ 
SE x (um-) 9$ ze 9 o: / qun /* 平方 和 */ 
} 
S2 = sgrt(s2/(n-1)); /* 标准 差 */ 
RE 














图 5-40 ”标准 差 的 流 算法 

我 向 Streem 添加 了 使 用 这 个 算法 计算 方差 和 标准 差 的 函数 (stdev() Mvariance() K 
数 )。 由 于 版 面 有 限 ， 这 里 就 不 贴 出 它们 的 代码 了 ， 这 些 代 码 的 结构 与 图 5-34 f average () 函数 
类 似 。 请 大 家 自行 阅读 stat.c 源 代码 中 exec stdev () 函数 的 相关 部 分 。 
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用 Streem 计算 标准 差 





接 下 来 就 使 用 新 定义 的 st aev () 函数 来 计算 前 面 例题 中 的 标准 差 。 首 先 思考 一 下 如 何 生成 全 
班 同 学 都 得 了 50 分 的 A 班 成 绩 。 
由 于 全 班 20 个 人 的 成 绩 都 是 50 分 ， 所 以 只 需 连 续 生成 20 个 值 为 50 的 数据 即 可 。 因 此 ， 这 里 
需要 使 用 前 面 介 绍 过 的 repeat () 。 下 面 的 式 子 就 可 以 向 标准 输出 写 入 20 个 50。 


























repeat (50,20) |stdout 
计算 平均 数 的 代码 如 下 所 示 。 
repeat (50,20) |average () |stdout 
计算 标准 差 的 代码 如 下 所 示 。 
repeat (50,20) |stdev() |stdout 
B 班 得 100 分 的 有 10 人， 得 0 分 的 也 有 10 人， 所 以 我 们 可 以 把 两 个 流 结合 在 一 起 。 为 了 


获得 在 10 个 100 的 后 面 跟着 10 个 0 的 数据 流 ， 我们 可 以 像 图 5-41 那样 编写 程序 ， 组 合 使 用 


repeat () fll concat () 。 

















concat (repeat (100,10),repeat (0,10)) |stdev() | stdout 
d 51.29891760425771 


El5- B 班 成 绩 的 生成 与 标准 差 的 计算 

但 是 现实 生活 中 是 不 会 出 现 这 种 全 班 同学 分 数 都 一 样 ， 或 者 一 半 满 分 一 半 0 分 的 情况 的 。 根 据 
我 们 的 经 验 ， 像 考试 分 数 这 种 非 人 造 数据 的 分 布 规律 通常 是 平均 数 附近 的 值 最 多 ， 随 着 值 与 平均 数 
的 差距 越 来 越 大 ， 值 也 会 变 得 越 来 越 少 。 
































偏差 值 

里 然 平均 数 和 标准 差 可 以 用 流 算法 进行 计算 , 但 是 有 些 指标 的 计算 却 无 法 使 用 流 算法 。 
比如 排名 和 偏差 值 这 两 个 统计 成 绩 的 指标 就 不 能 用 流 算法 计算 。 计 算 排 名 时 需要 按照 成 绩 进 行 

排序 ， 计 算 偏差 值 时 需要 先 计算 平均 数 和 标准 差 。 
作为 示例 ， 下 面 我 们 来 计算 一 下 偏差 值 。 偏 差 值 的 定义 如 下 所 示 。 


























































































































偏差 值 = ( 个 人 成 绩 - 平均 成 绩 ) x 10/ 标准 差 + 50 
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用 这 个 公式 计算 偏差 值 的 代码 如 图 5-42 所 示 。 


input = fread("result.csv") |map(x-»number (x) } 








avs = input | average() # 平均 成 绩 
sts - input | stdev() E 标准 差 
zip(avs, sts) | each( x -> 


ewe MEME ctc s T) 


fread("result.csv") | map(x-»number(x)]| each ( score -> 
sS - (score-avg)*10 / std « 50 
print ("个 人 成 绩 : ", score, "偏差 值 :"， ss) 
} 
} 


图 5-42 计算 偏差 值 


zip 那 部 分 可 能 不 太 好 理解 ， 我 来 解释 一 下 。 从 同一 个 输入 流 计算 出 了 平均 成 绩 和 标准 差 。 
average () 和 stdev() 都 返回 只 有 一 个 元 素 的 流 。 对 两 个 流 使 用 zip O 函数 ， 就 可 以 取出 元 素 
合并 为 数组 ， 所 以 接 下 来 的 each () 不 用 于 循环 ， 而 是 用 于 对 取出 的 值 进行 处 理 。 

在 读 取 一 遍 数据 并 计算 平均 数 和 标准 差 之 后 ， 如 果 还 需要 从 头 再 读 取 一 遍 数 据 ， 就 太 让 人 反 
感 了 。 就 算 无 法 避免 重复 读 取 数 据 ， 也 应 该 会 有 更 好 的 指定 方法 吧 。 我 稍微 思考 了 一 下 ， 觉 得 使 用 
future fll promise 说 不 定 可 以 改进 这 个 问题 。 我 把 这 个 当成 作业 以 后 再 去 研究 。 



































排序 


根据 值 的 大 小 对 数据 进行 排序 是 计算 机 科学 的 一 个 重要 课题 ， 为 了 提高 排序 速度 ， 人 们 想 出 了 
各 种 算法 ， 其 中 快速 排序 (quick sort) 被 认为 是 目前 最 快 的 算法 。 

C 标准 库 里 提供 了 qsort(3) 函数 ， 可 以 简单 地 对 内 存 中 的 数据 进行 排序 。 不 过 这 个 函数 有 一 
个 严重 的 问题 ， 就 是 只 能 对 不 超过 内 存 大 小 的 数据 进行 排序 。 

这 个 问题 暂且 可 以 用 外 部 归并 排序 (merge sort) 的 方法 解决 。 外 部 归并 排序 是 指 将 数据 分 割 为 
内 存 可 以 容纳 的 大 小 后 再 进行 读 取 ， 然 后 对 各 个 数据 进行 排序 并 写 人 文件 里 ， 之 后 从 前 面 开 始 读 取 
每 个 已 排 好 序 的 文件 ， 把 数据 连接 起 来 完成 整体 的 排序 ， 具 体 步 又 如 下 所 示 。 





















































. 从 原来 的 数据 集 读 入 大 小 不 超过 内 存 的 数 扩 
. 对 已 读 入 的 数据 进行 排序 ， 并 写 入 文件 
重复 第 1 步 和 第 2 步 ， 直 到 完成 所 有 的 数据 处 理 
. 从 已 写 入 的 多 个 文件 中 分 别 读 取 1 个 元 素 

. 将 最 小 的 元 素 写 入 结果 文件 
从 已 写 入 的 元 素 的 来 源 文件 中 再 读 取 1 个 元 素 ， 重 复 该 处 理 ， 直 到 把 数据 全 部 写 入 结果 文件 
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UNIX 的 sort 命令 就 是 使 用 这 个 算法 实现 了 排序 。 


很 难 进行 大 规模 的 排序 


但 是 外 部 归并 排序 也 存在 一 些 问题 。 第 一 个 问题 是 创建 工作 文件 会 消耗 硬盘 容量 。 数 据 规模 越 
大 ， 消 耗 的 硬盘 容量 也 就 越 大 。 使 用 外 部 归并 排序 就 是 为 了 处 理 很 大 的 数据 ， 这 样 一 来 ， 容 量 的 消 
耗 就 越发 让 人 担心 。 除 了 注意 配置 合适 的 磁盘 之 外 ， 可 能 也 没有 什么 解决 办 法 了 “。 

另 一 个 问题 是 ，Streem 中 任何 数据 都 可 以 在 流 中 流动 ， 成 为 排序 的 对 象 。 也 就 是 说 ， 如 果 只 是 数 
值 和 字符 串 ， 那 么 就 可 以 轻易 地 写 入 工作 文件 ,但 是 有 结构 的 数据 就 很 难 在 不 丢失 信息 的 情况 下 写 入 文 
件 了 。 使 用 JSON 和 MessagePack 这 种 能 够 表示 有 结构 的 数据 的 格式 可 以 在 一 定 程度 上 解决 这 个 问题 。 

可 以 看 出 ， 数 据 规模 越 大 ， 需 要 考虑 的 事情 也 就 越 多 。 

说 了 这 么 多 ， 我 们 还 是 早点 进入 实现 阶段 吧 。 这 次 先 实现 内 存 中 的 排序 。 昌 然 可 能 会 让 大 家 失 
望 , 但 是 关于 使 用 外 部 归并 排序 来 支持 大 规模 数据 排序 的 实现 ， 我 打算 以 后 再 去 研究 。 

这 里 使 用 下 面 的 代码 对 数据 进行 排序 。 从 input 把 数据 一 次 性 读 取 到 内 存 中 ， 然 后 进行 排序 ， 
之 后 把 结果 一 次 性 写 人 output. 


















































input | sort() | output 

















如 果 需 要 排序 的 数据 全 部 是 数值 ， 那 么 自然 可 以 进行 排序 ， 不 过 也 有 各 个 数据 都 是 数组 ， 需 要 
根据 数组 的 第 n 个 元 素 进行 排序 这 样 的 情况 ， 这 时 就 需要 指定 函数 。 

也 就 是 说 ,为 了 能 够 根据 数组 的 第 1 个 元 素 ( 由 于 索引 从 0 开始， 其 实 是 第 2 个 元 素 ) 排序 ， 
需要 指定 如 下 所 示 的 比较 函数 。 


I 











sort(x,y-»cmp(x(1),y(1))] 


排序 的 应 用 


实现 排序 之 后 ， 我 们 就 可 以 取出 对 统计 来 说 有 意义 的 值 了 。 最 容易 理解 的 就 是 排名 ， 排 名 就 相 
当 于 根据 成 绩 进行 排序 。 
男 外 ， 排 序 后 就 可 以 得 到 中 位 数 了 。 中 位 数 是 指 一 组 有 序数 据 中 处 于 正中 间 的 值 。 由 于 数据 个 
数 为 偶数 时 没有 正中 间 的 值 ， 所 以 就 需要 取 最 中 间 的 两 个 值 的 平均 数 作 为 中 位 数 。 求 中 位 数 时 使 用 


medqian()。 





















































Q 不 过 英文 版 的 维基 百科 中 提 到 ， 通 过 in-place 的 方式 进行 外 部 归并 排序 ， 可 以 把 所 需 的 磁盘 容量 限制 在 与 原 有 
数据 同等 大 小 的 程度 ， 但 是 这 个 说 明 却 被 维基 百科 标记 为 “缺少 来 源 ”。 
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中 位 数 有 点 像 平 均 数 ， 但 它 在 不 受 极端 值 的 影响 这 一 点 上 优 于 平均 数 。 平 均 数 受 所 有 值 的 影 
响 ， 如 果 由 于 测量 错误 而 出 现 了 极端 值 ， 就 可 能 使 误差 变 大 。 而 中 位 数 则 几乎 没有 这 样 的 问题 。 





抽样 








虽然 “大 数据 ”这 个 词 现在 很 流行 ， 但 是 实际 上 规模 过 大 的 数据 处 理 起 来 很 困难 ， 而 且 数 据 的 








处 理 开 销 也 很 高 ， 有 时 甚至 很 难 收集 到 足够 多 的 数据 。 

















而 统计 这 门 学 问 原本 就 是 为 了 对 难以 收集 实际 数据 的 “大 数据 ”进行 推算 而 诞生 的 。 
当 总 体 (population ) 的 数量 达到 一 定 程度 时 ， 只 需要 用 很 少 的 样本 ( sample ) 就 可 以 把 握 整 体 
的 趋势 。 如 果 人 允许 有 5% 左右 的 误差 ,那么 在 总 体 有 10 万 人 的 情况 下 ， 把 握 整 体 趋势 所 需要 的 样 





本 人 数 只 有 383 人 。 








为 了 更 容易 处 理 数 据 ，Streem 中 也 实现 了 用 于 抽样 的 函数 。 用 于 抽样 的 流 算法 有 蓄 水 池 抽 样 


( reservoir sampling )。 


蓄 水 池 抽 样 按照 如 下 步骤 进行 抽样 。 要 得 到 N 个 样本 ， 需 要 : 





1. 把 开头 的 个 样本 添加 到 数组 中 














2. 对 之 后 的 第 i 个 元 素 ， 生 成 0 到 i -1 之 间 的 随机 数 r 
3. 如 果 随 机 数 x 比 N 小 ， 则 将 数组 中 的 第 7 个 元 素 花 换 为 第 i 个 元 素 

















开头 的 Y 个 样本 填 满 蓄 水 池 ， 之 后 
每 当 上 游 有 元 素 流 过 来 时 ， 就 以 counter/ 
size 的 概率 随机 替换 部 分 元 素 。 通 过 替换 
蕾 水 池 中 的 元 素 ， 最 终 可 以 实现 从 总 体 中 
取出 样本 的 效果 。 

有 些 读 者 可 能 会 觉得 代码 比 文字 说 明 
更 容易 理解 ， 因 此 我 准备 了 用 Ruby 编写 
的 蓄 水 池 抽 样 算法 的 代码 (图 5-43 )。 

我 使 用 这 个 算法 实现 了 用 于 抽样 
ÚJ sample () 函数 。 例 如 在 管道 中 添加 
sample (100) 语句 ， 就 可 以 从 整个 流 中 
随机 取出 100 个 元 素 ， 并 发 送 给 下 游 处 理 。 
即便 总 体 特别 庞大 ， 也 能 够 在 保持 整体 趋 
势 的 情况 下 选 出 元 素 。 

前 面 提 到 过 ， 如 果 人 允许 有 5% 左右 的 




































































def reservoir sampling(seg, k) 
e = ga- em 
reservoir = e.take (k) 
id m de 
e.each do |item| 
Tosccsmdim) 
T i 
abit erek 
reservoir[r] = item 
end 
end 
return reservoir 
end 
# 调用 
print reservoir sampling(0..1000000, 10) 














图 5-43 用 Ruby A5 BJ ZI HUE SETA 





误差 ， 即 使 总 体 庞大 ， 也 可 以 根据 少数 样本 来 把 握 数据 的 整体 趋势 。 不 过 需要 注意 的 是 ， 如 果 在 不 
了 解 总 体 大 小 的 情况 下 对 数据 进行 第 选 ， 就 可 能 无 法 得 到 正确 的 结果 。 























小 结 
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在 大 数据 备 受 瞩目 的 当今 社会 ， 统 计 变 得 越 来 越 重要 。 真 希望 未 来 Streem 也 能 像 Excel 那样 成 
长 为 容易 操作 的 统计 分 析 工 具 。 


时 光 机 专栏 


自己 不 擅长 的 领域 真 想 交 给 别人 去 做 


本 节 是 2016 年 7 月 刊 中 刊登 的 内 容 。 在 这 一 节 中 ， 我 们 引入 了 几 个 统计 函数 。 


正文 中 也 提 到 过 ， 我 对 数学 总 有 一 种 旦 惧 的 心理 ， 所 以 写 这 一 节 时 费 了 很 多 心力 ， 我 甚至 















































向 读 小 学 的 女儿 借 了 教科 书 ， 一 边 复 习 一 边 痛苦 地 进行 写作 。 


EP OI x 


" 


不 管 是 并 发 编程 还 是 数学 处 理 ， 都 不 是 我 想 自己 到 






































手 去 完成 的 ， 所 以 我 非常 希望 用 完成 度 





c 



































高 的 工具 来 实现 这 些 处 理 。 遗 憾 的 是 ， 我 想 要 的 工具 都 不 存在 ， 所 以 只 好 自己 去 开发 。 既 然 





aed 了 5 








Eo 









































难免 需要 直面 一 些 自己 不 想 去 碰 的 问题 ， 内 心 真 的 很 抗拒 。 如 果 是 跟 擅 长 这 些 问 







































































的 人 组 队 开发 可 能 会 好 一 些 ， 可 这 样 的 人 偏偏 是 不 容易 遇 到 的 。 可 能 是 因为 我 不 善于 与 人 沟 


5 -6 ”随机 数 


通过 扔 奶子 获得 的 随机 数 经 常 在 游 
到 这 样 的 随机 数 。 本 节 我 们 就 来 学 

















戏 中 使 用 ， 而 在 Streem 进 行 的 数据 处 理 中 也 常常 用 











习 随 机 数 的 实现 和 应 用 的 基础 知识 。 





随机 数 没 有 规则 ， 我 们 事先 不 知道 会 得 到 哪个 数 。 比 如 扔 蜗 子 会 得 到 1 到 6 之 间 的 整数 ， 但 我 





们 并 不 知道 具体 会 得 到 哪 一 个 。 据 说 为 了 让 骨 子 的 每 个 面 朝 上 的 概率 均等 ， 骨 子 上 的 点 的 深浅 都 经 


过 了 细心 的 调整 。 所 以 当 扔 山 子 的 次 数 达 到 一 定 程度 时 ， 各 个 多 














骨 子 在 制作 时 没 下 这 么 多 功夫 ， 各 个 面 朝 上 的 概率 会 不 同 。 
在 计算 机 中 也 有 许多 场景 需要 用 到 随机 数 ， 比 如 大 部 分 游戏 就 以 某 种 形式 用 到 了 随机 数 。 除 了 
游戏 之 外 ，ssh 和 https 的 加 密 通信 等 也 会 用 到 随机 数 。 














蒙特 卡 罗 法 是 在 数据 处 理 领域 使 用 随机 数 的 一 个 典型 例 
子 。 蒙 特 卡 罗 法 是 使 用 随机 数 进行 计算 的 方法 ， 例 如 用 随机 








数 求 圆 周 率 ( 图 5-44 )。 


在 正方 形 中 放置 大 量 的 由 随机 数 确定 坐标 的 点 ， 这 些 点 




















就 会 被 分 为 1/4 圆 之 内 的 点 和 圆 外 的 点 。 
个 数 除 以 点 的 总 数 ， 得 到 的 值 就 约 等 于 











精确 。 这 就 是 用 蒙特 卡 罗 法 求 圆周 率 的 方法 。 
除了 蒙特 卡 罗 法 以 外 ，5-5 节 介 绍 的 蓄 水 池 抽 样 也 使 用 了 











另外 还 有 使 用 随机 数 提高 效率 的 随机 算法 (randomized 
algorithm )。 随 机 算法 中 有 一 个 通过 人 允许 误差 的 存在 来 提高 效 














率 的 布 隆 过 滤器 (bloom filter )。 


真 随机 数 和 伪 随 机 数 





用 包含 在 圆 内 的 点 的 
7/4， 而 且 点 越 多 值 越 





机 也 可 以 通过 某 种 计算 得 到 “近似 于 随机 数 的 数 ”。 
最 简单 的 方法 就 是 使 用 时 间 信 息 。 也 就 是 说 ,使 用 当前 的 秒 值 ， 或 者 使 用 以 微 秒 、 纳 秒 为 单位 


的 时 刻 信 息 来 得 到 随机 的 数值 。 据 说 当 稀 
值 (1 ~ 127) 当成 随机 数 使 用 的 。 














F 的 Z80 微机 就 是 把 保存 刷新 内 存 的 时 间 信 |, 


j 朝 上 的 概率 是 相等 的 。 听 说 便宜 的 





图 5-44 蒙特 卡 罗 法 的 示例 


其 实 计 算 机 无 法 像 扔 货 子 那样 得 到 随机 数 ( 真正 的 随机 数 )。 但 即便 不 是 真正 的 随机 数 ， 计 算 





EAI R 寄存 器 的 
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我 们 也 可 以 通过 计算 得 到 伪 随 机 数 。 下 面 是 几 种 具有 代表 性 的 伪 随 机 数 生成 算法 。 








e 线性 同 余 法 
e 梅森 旋转 法 
e Xorshift 


























通过 计算 求 得 的 伪 随 机 数 具 备 重 现 性 ， 这 也 是 它 的 一 个 特征 。 也 就 是 说 ， 用 同样 的 初始 值 开始 
计算 就 能 得 到 完全 相同 的 随机 数 序列 。 

重 现 性 与 随机 数 的 “没有 规则 ， 事 先 不 知道 会 得 到 哪个 数 ” 的 特性 相 矛 盾 。 不 过 伪 随 机 数 的 重 
现 性 有 时 也 会 为 我 们 带 来 便利 。 比 如 在 使 用 随机 数 模拟 某 种 场景 的 情况 下 ， 我 们 可 以 使 用 伪 随 机 数 
通过 同样 的 初始 值得 到 同样 的 随机 数 序列 ， 这 就 意味 着 能 够 重 现 完全 相同 的 模拟 结果 。 在 对 模拟 结 
有 果 进 行 试验 等 情况 下 ， 这 个 重 现 性 就 会 起 到 非常 重要 的 作用 。 
























































伪 随 机 数 的 评估 





前 面 提 到 过 生成 伪 随 机 数 的 算法 有 很 多 种 ， 那 么 这 些 算法 都 有 什么 区 别 呢 ? 我 们 要 如 何 评估 这 
些 算法 呢 ? 
伪 随 机 数 加 密 算法 的 评估 标准 有 以 下 几 点 。 


。 Rž 
e 周期 

。 速度 ( 计算 量 
。 密码 学 上 的 安全 性 




















员 差 表示 算法 生成 的 伪 随 机 数 与 真正 的 随机 数 之 间 的 差异 程度 。 一 些 算法 生成 的 随机 数 会 与 真 
正 的 随机 数 之 间 存 在 偏差 ， 比 如 生成 的 随机 数 是 某 个 特定 数值 的 倍数 等 。 
通过 计算 求 得 的 伪 随 机 数 序列 很 容易 陷 人 重复 同一 个 模式 的 局 面 。 在 这 种 情况 下 ， 我 们 把 从 开 
始 到 相同 模式 再 次 出 现 为 止 的 这 一 段 长 度 称 为 周期 。 周 期 短 的 伪 随 机 数 算法 的 缺点 是 容易 预测 下 一 
个 值 ， 而 且 偏差 过 大 。 
裔 差 和 周期 是 伪 随 机 数 加 密 算法 固有 的 特点 。 至 于 为 什么 每 个 算法 都 有 这 些 特点 ， 这 是 由 数学 
决定 的 ， 对 其 原因 进行 讲解 就 超出 我 的 能 力 范 围 了 。 大 家 知道 这 个 特点 就 可 以 了 。 
速度 表示 计算 下 一 个 随机 数 所 需要 的 计算 量 。 统 计 和 模拟 等 领域 需要 用 到 大 量 的 随机 数 ， 在 这 
种 情况 下 ， 如 果 伪 随机 数 算法 的 计算 量 过 大 ,那么 如 何 缩短 计算 时 间 就 成 为 了 整个 处 理 的 难题 。 
密码 学 上 的 安全 性 表示 该 算法 是 否 可 以 安全 地 用 于 密码 学 领域 。 在 密码 学 领域 ， 密 钥 的 生成 以 
及 一 次 性 密 钥 的 实现 等 许多 场景 都 需要 用 到 随机 数 。 如 果 随 便 用 了 不 可 靠 的 伪 随 机 数 ， 就 会 出 现 漏 
洞 ， 密 码 就 有 可 能 被 破解 。 
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为 了 实现 密码 学 上 的 安全 性 ， 生 成 的 随机 数 序 列 不 仅 要 没有 偏差 ， 还 需要 确保 密码 不 会 被 破 
解 。 虽 然 这 些 条 件 很 难 满 足 ， 但 也 存在 Blum-Blum-Shub 这 种 在 密码 学 上 安全 的 伪 随 机 数 算法 。 男 
外 ， 把 加 密 时 使 用 的 单 向 函数 用 在 通过 普通 的 伪 随 机 数 算法 生成 的 随机 数 上 ， 就 能 实现 密码 学 上 的 
安全 性 。 但 不 管 怎么 说 ， 确 保安 全 性 的 这 些 方 法 都 会 产生 一 定 的 开销 ， 所 以 用 在 普通 场景 ( 比如 统 
WE) 中 会 有 些小 题 大 做 。 

本 闻 介 绍 的 伪 随 机 数 算法 ， 如 果 不 加 修改 直接 使 用 ,在 密码 学 上 都 不 是 安全 的 。 这 里 大 家 只 要 
记 住 在 加 密 的 场景 中 使 用 随机 数 时 ， 不 可 以 随便 使 用 一 般 的 伪 随 机 数 算法 即 可 。 



















































































线性 同 余 法 
下 面 我 将 对 ( 密码 学 上 不 安全 的 ) 伪 随 机 数 算法 中 具有 代表 性 的 算法 依次 进行 说 明 。 
首先 要 介绍 的 就 是 线性 同 余 法 。 据 说 线性 同 Xn41-— (A x Xn + B) mod M 
余 法 是 被 广泛 使 用 的 伪 随 机 数 算法 之 中 最 古老 的 i 
算法 。 图 5-45 的 递 推 表 达 式 定义 了 使 用 线性 同 余 ”图 S45 线性 同 余 法 的 递 推 表 达 式 
法 产生 的 随机 数 序列 。 
在 这 个 表达 式 中 ，4、B、M E 
选取 方法 将 决定 随机 数 序列 的 性 质 。 
线性 同 余 法 的 周期 最 大 也 不 过 是 M。 不 过 这 个 特点 会 受 常 量 的 选取 方法 的 影响 ， 如 果 选 了 不 合 
适 的 常量 ,周期 就 可 能 会 比 M 短 得 多 ， 偏 差 也 可 能 变 大 。 
我 为 像 我 一样 不 擅长 数学 的 读者 准备 了 用 C 语言 编写 的 使 用 线性 同 余 法 产生 随机 数 的 程序 (图 5-46). 
这 个 程序 选 定 的 常量 如 下 所 示 ， 这 是 被 公认 为 比较 好 的 一 种 常量 的 组 合 方式 。 









































Hi 


，M>4、M>B、4>0、B 宇 0。 这 些 常量 和 初始 值钱 的 
























































A = 1566083941 uint32 t 
Bos rand (void) 
M = 2^32 { 


greie Timesa E Seel = dip 

虽说 线性 同 余 法 不 是 计算 量 特别 大 的 算法 ， Seed = seed * 1566083941UL + 1; 
但 它 产 生 的 随机 数 质量 并 不 高 。 尤 其 需要 注意 Deu 
的 是 后 面 几 位 数字 的 随机 性 较 低 。 比 如 用 线性 。 ” 
同 余 法 得 到 了 32 位 随机 数 ， 如 果 要 从 这 个 数 中 
获取 0 ~ 7 的 随机 数 ， 就 需要 用 工 表示 32 位 随 
BUR. Hr >> 29 取出 前 面 几 位 数字 作为 随机 
数 ， 而 不 能 使 用 rs%8 或 者 rg0xf 这 样 的 操作 获取 后 面 4 位。 

另外 ， 线 性 同 余 法 周期 比较 短 ， 而 且 从 递 推 表达 式 可 以 明显 地 看 出 ， 在 得 到 某 个 随机 数 之 后 ， 
下 一 个 随机 数 的 值 也 就 确定 了 。 因 此 ， 假 如 在 蒙特 卡 罗 法 中 使 用 线性 同 余 法 ， 点 可 能 就 会 分 布 不 






































5-46 用 C 语 言 编写 的 通过 线性 同 余 法 产生 随 
机 数 的 程序 
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均 ， 呈 现 出 格子 状 。 游 戏 自 不 用 说 ， 在 统计 和 模拟 等 领域 使 用 这 个 算法 时 也 需要 注意 。 现 在 有 几 种 
伪 随 机 数 算法 要 比 线性 同 余 法 更 好 用 ,希望 大 家 可 以 去 了 解 一 下 。 
C 的 标准 库 里 提供 了 获得 随机 数 的 rana () 函数 ， 不 过 在 大 多 数 情 况 下 使 用 的 是 线性 同 余 法 
(C 的 ISO 标准 没有 规定 rand () 函数 在 随机 数 计算 上 要 使 用 线性 同 余 法 ， 只 是 标准 里 的 参考 代码 
使 用 的 是 线性 同 余 法 )。 
也 就 是 说 ,在 直接 使 用 rand O 函数 时 ， 很 有 可 能 碰 到 前 面 所 说 的 线性 同 余 法 的 问题 。 在 某 些 
情况 下 ， 我 们 也 许 就 不 能 使 用 系统 提供 的 rana () 函数 ， 而 是 需要 自己 编写 伪 随 机 数 生成 函数 了 。 


























































































































梅森 旋转 法 


与 线性 同 余 法 相 比 ， 梅 森 旋转 法 这 一 伪 随 机 数 加 密 算法 的 出 现时 间 较 晚 ， 该 算法 是 在 1997 年 
由 当时 的 广岛 大 学 的 松本 真 和 西村 拓 士 开发 的 。 

梅森 旋转 法 最 大 的 特征 是 周期 长 。 在 讲解 线性 同 余 法 时 也 提 到 过 ， 如 果 周 期 较 短 ， 在 模拟 等 需 
要 使 用 大 量 随机 数 的 场景 下 随机 数 就 会 发 生 偏差 。 梅 森 旋 转 法 的 周期 是 2*””-1， 非 常 长 。 这 个 数 
即使 用 十 进 制 表 示 也 超过 了 6000 位 ， 是 一 个 非常 大 的 数 。2””-1 属于 梅森 素数 ， 这 也 是 这 个 算法 
名 称 的 由 来 。 

这 个 算法 不 仅 周期 长 ， 而 有 旦 连续 的 随机 数 之 间 的 相关 关系 也 较 小 ( 专业 的 说 法 是 “多 维 均匀 分 
布 ” )， 比 以 前 的 伪 随 机 数 生 成 算法 的 速度 更 快 ， 非 常 好 用 。 

这 些 优 点 实际 上 也 得 到 了 人 们 的 认可 ,包含 Ruby 和 Python 在 内 的 很 多 编程 语言 都 采用 了 这 个 
算法 作为 标准 的 随机 数 生 成 算法 。 

梅 牺 旋转 法 虽然 很 好 用 ， 但 也 不 是 没有 缺点 ， 它 的 其 中 一 个 缺点 就 是 保存 内 部 状态 的 向 量 太 
大 。 线 性 同 余 法 只 用 了 1 个 整数 来 保存 内 部 状态 ， 而 梅森 旋转 法 却 足 足 用 了 623 个 32 位 整数 来 保 
存 。 如 果 要 保存 处 理 过 程 中 的 状态 并 重 现 随机 数 序列 ， 使 用 梅森 旋转 法 就 比较 麻烦 了 。 而 且 最 重要 
的 是 ， 在 对 这 623 个 状态 向 量 进行 初始 化 时 ， 一 不 小 心 随机 数 的 质量 就 会 变 低 。 

SFMT ( SIMD-oriented Fast Mersenne Twister ) 算法 改进 了 这 些 缺 点 。 该 算法 号 称 速度 是 原始 的 
梅森 旋转 法 的 2 倍 ， 不 过 可 能 是 因为 该 算法 在 2006 年 才 出 现 ， 还 比较 新 (虽然 也 有 10 多 年 了 )， 没 
怎么 见 到 有 人 使 用 。 我 自己 也 是 为 这 次 写 稿 做 调研 的 时 候 才 知道 的 ， 以 后 有 机 会 可 以 尝试 使 用 一 下 。 

















































































































Xorshift 


Xorshift 是 乔治 . 马 萨 格 利 亚 (George Marsaglia ) 在 2003 年 发 表 的 ， 比 梅森 旋转 法 出 现 的 时 
间 更 晚 。 

Xorshift， 顾 名 思 义 ， 是 一 个 只 使 用 xor 运算 ( 逻辑 异 或 ) 和 shift 运算 (位移 ) 就 能 快速 得 到 
伪 随 机 数 的 算法 ， 因 此 可 以 快速 地 计算 随机 数 。 

虽然 Xorshift 的 周期 比 梅森 旋转 法 短 ( 根据 状态 向 量 大 小 的 不 同 ， 周 期 在 2”-1 到 27-1 之 间 
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变化 )， 但 是 在 随机 性 上 比 线性 同 余 法 
好 得 多 。 不 仅 如 此 ， 它 的 实现 也 非常 | 
简单 。Xorshift 最 简单 的 实现 (状态 向 uc De PE Rd E p E 
量 为 6 位 ) masama, 图 547 5 mx 0。 
IMPIIS Js ) 

没 想到 通过 这 么 简单 的 计算 就 可 
以 生成 质量 这 么 高 的 随机 数 ， 而 且 这 ”图 5-47 Xorshift 的 实现 
个 算法 居然 到 了 21 世纪 才 被 人 发 明 出 来 ， 真 是 令 人 意外 。 

Xorshift 还 派生 出 了 随机 性 更 高 的 算法 ， 即 Xorshift 和 Xorshift+。 








TE x - x ^ (x «« 17); 




















伪 随 机 数 的 初始 值 


正如 前 面 介绍 的 那样 ， 伪 随机 数 算法 通过 计算 来 产生 ( 看 起 来 ) 随机 性 高 的 随机 数 序列 ， 但 这 
只 不 过 是 根据 计算 结果 产生 的 伪 随 机 数 ， 并 不 是 真正 的 随机 数 。 

计算 机 基本 上 是 按照 指示 工作 的 ， 也 就 是 说 ， 从 同样 的 状态 开始 就 会 得 到 同样 的 结果 ， 所 以 很 
改 产 生 真正 的 随机 数 。 

通过 尽量 把 难以 预测 的 值 作 为 伪 随 机 数 算法 的 初始 值 使 用 ， 就 可 以 产生 更 像 随机 数 的 伪 随 机 数 。 

非常 典型 的 初始 值 是 时 刻 。 使 用 从 操作 系统 得 到 的 当前 时 刻 的 精确 的 部 分 ( 以 微 秒 或 纳 秒 为 单 
位 )， 就 可 以 在 每 次 运行 时 都 得 到 随机 的 初始 值 。 

不 过 需要 注意 的 是 ， 硬 件 实际 搭载 的 时 刻 功 能 下 
时 刻 进行 分 解 。 即 便 系统 调用 可 以 返回 以 微 秒 为 单位 的 时 刻 ， 返 回 的 时 刻 也 不 一 定 是 正确 的 以 微 秘 
为 单位 的 值 。 

有 的 操作 系统 也 会 提供 一 些 其 他 的 方法 来 得 到 更 加 随机 的 数值 。 
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/dev/random 


PASEXOBUIS HELPER. XEZK BAR nIPudunmy. Dgpixceds ARAE A ENLA "NT 
(混乱 性 )。 

比如 Linux 系统 从 驱动 等 收集 基于 外 部 信息 的 焙 ， 然 后 通过 读 取 名 为 /dev/random 的 设备 文件 ， 
消费 收集 到 的 蚁 ,得 到 “真正 的 随机 数 ”。 

不 过 从 设备 等 收集 到 的 炉 是 有 限 的 ， 所 以 从 /dev/random 中 读 取 过 多 的 随机 数 会 耗 尽 收集 到 的 
炉 。 在 这 种 情况 下 ，/dev/random 就 会 阻塞 读 取 ， 一 直 保持 等 待 的 状态 ， 直 到 收集 到 坑 。 

原本 只 是 想得到 随机 数 而 已 ， 没 想到 却 产 生 了 阻塞 ， 这 可 能 会 给 我 们 带 来 一 定 的 困扰 。 在 这 种 
情况 下 ， 我 们 可 以 使 用 另外 一 个 名 叫 /dev/urandom 的 设备 文件 ， 这 个 文件 是 不 会 产生 阻塞 的 。/dew/ 
urandom ERESIA, ELE SARI WIR. EE ERE A ERE AR ENL 




































































其 他 操作 系统 也 提供 了 类 似 的 功能 ， 
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比如 FreeBSD 也 提供 了 /devwrandom。 这 些 操作 系统 返回 


随机 数 的 功能 相同 ， 只 不 过 FreeBSD 一 开始 使 用 的 就 是 密码 学 上 安全 的 伪 随 机 数 算法 ， 不 会 产生 阻 











塞 。 从 这 一 层 男 








| 来 说 ，FreeBSD 的 /dev/random 就 相当 于 Linux 的 /dev/urandom 








从 /dev/random 得 到 的 随机 数 要 比 时 刻 更 难 预测 ， 很 适合 作为 初始 值 使 用 。 实 际 上 Ruby 就 使 用 


T /dev/urandom ( 如 果 可 














的 话 ) 来 初始 化 随机 数 序列 。 


而 mruby 和 Streem 在 初始 化 随机 数 时 使 用 的 是 时 刻 信 息 。 由 于 /dev/urandom 只 能 在 Linux 等 
部 分 操作 系统 上 使 用 ， 考 虑 到 可 移植 性 ， 所 以 使 用 了 时 刻 信息 。 不 过 对 于 还 没 怎么 考虑 可 移植 性 的 
Streem 来 说 ， 采 用 /dev/urandom 可 能 会 更 好 。 


也 许 有 人 会 认为 需要 产生 随机 数 时 干脆 全 部 从 设备 文件 中 读 取 就 好 了 ,但 是 从 怕 





这 种 做 法 不 能 替代 伪 随 机 数 算法 。 


伪 随 机 数 的 基准 测试 


程序 员 在 选择 使 用 某 种 方法 时 ， 往 往 会 实际 写 出 代码 比较 一 下 ， 下 面 我 们 就 来 测试 一 下 本 市 介 


绍 的 各 个 伪 随 机 数 算法 。 如 明 


进行 评测 。 





首先 ， 使 用 线 怕 


行 时 间 。 


实际 的 基准 测试 代码 如 图 5-48 所 示 
































#include <stdio.h> 


#include <inttypes.h> 


#include «sys/time.h» 


/* linear congruential method */ 


malas iE 


lcm rand (void) 


{ 


See unt et ESEC = L; 
seed = seed * 1566083941UL + 1; 


return seed; 


} 


/* merseene twister */ 
#define N 624 
#define M 397 
ddefine M 397 


&define MATRIX A 0x9908b0dfUL 











/* constant vector a */ 


能 方面 考虑 ， 


实现 无 误 的 话 ， 偶 差 和 周期 等 理论 上 是 固定 的 ， 所 以 这 次 就 先 对 性 能 


E 同 余 法 、 梅 森 旋 转 法 和 Xorshift 这 3 种 算法 生成 1 亿 个 随机 数 ， 比 较 它 们 的 运 


， 图 5-49 是 输出 结果 。 表 5-12 是 评测 时 使 用 的 机 器 的 配置 。 
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#define UPPER MASK 0x80000000UL /* most significant w-r bits */ 
ddefine LOWER MASK Ox7fffffffUL /* least significant r bits */ 





Static uint32 t mt[N]; /* the array for the state vector  */ 


Static int mti-N«1; /* mti--N-«1 means mt[N] is not initialized */ 


void 
mtw init(uint32 t s) 
{ 
mam y Gs ORE EE EEE EEUN, 
for (mti-1; mti<N; mti++) ( 
mt[mti] - (1812433253UL* (mt [mti-1]^ (mt [mti-1] 255230) ) «mti); 
ma [eat] = (Ee 二 





eaZ E 
mtw_rand (void) 


pass i yw 
static const uint32 t mag01[2]-(0xOUL, MATRIX Aj]; 


if (mti »- N) ( /* generate N words at one time */ 
INEK; 


if (mti == N+1) /* if mtw_init() has not been called, */ 
mtw init(5489UL); /* a default initial seed is used */ 


for (kk20;kk«N-M;kk««) { 

















y = (mt [kk] &UPPER MASK) | (mt [kk+1] &LOWER MASK) ; 
mt [kk] = mt[kk«M] ^ (y >> 1) ^ magO1[y & Ox1lUL]; 
j 
for (;kk«N-1;kk««) { 
y = (mt[kk]&UPPER MASK) | (mt [kk+1] &LOWER MASK); 
mt [kk] = mt[kk«(M-N)] ^ (y >> 1) ^ magolly & Ox1UL]; 
} 
y = (mt [N-1] &UPPER_MASK) | (mt [0] &LOWER MASK); 
mt [N-1] = mt[M-1] ^ (y >> 1) ^ mag0l[y & Ox1UL]; 
mEnE eU 


y = mt [mti++] ; 
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/* Tempering */ 


^ 


y» "e (5 se gi) 
y ^- (y «« 7) & 0x9d2c5680UL; 
y ^- (y «« 15) & Oxefc60000UL; 
y “= (y >> 18); 
return vi 

) 

[agir Mt 


xor rand(void) { 
static uint64 t X = 88172645463325252ULL; 
A 


X=X (2 


recria c 9x ^" dex em 309) p 





#define TIMES 100000000 
#define BENCH (name) do {\ 
struct timeval tv, tv2, tv3;WN 
sirae abe N 
char *f;\ 
name ## rand(); /* rehearsal */\ 
f = #name;\ 
gettimeofday(&tv, NULL) ;\ 
for (i=0; i<TIMES; i++) {\ 
name ## _rand();\ 
j^ 
gettimeofday(&tv2, NULL) ;\ 
timersub(&tv2, &tv, &tv3);\ 
EN iw .ew Eee, tv3.tv usec);N 


) while (0) 


printf ("benchmark repeats £d times\n", TIMES); 
BENCH (10cm); 
BENCH (mtw) ; 
BENCH (xor) ; 





图 5-48 ”随机 数 生成 的 基准 测试 程序 
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从 基准 测试 的 结果 来 看 ， 速 度 最 快 的 是 线性 





同 余 法 ， 生 成 1 亿 个 随机 数 耗 费 了 约 0.3 秒 ， 其 次 








是 Xorshift， 耗 费 了 约 0.7 fb, 
梅森 旋转 法 ， 约 0.96 秒 。 





耗费 时 间 最 长 的 是 


线性 同 余 法 的 随机 数 质量 不 高 ， 我 们 先 将 其 
排除 在 外 。 综 合 考虑 周期 的 长 得 和 性 能 ， 也 许 根 




















据 场景 区 分 使 

















梅森 旋转 数 和 Xorshift 比较 好 ， 


或 者 也 可 以 考虑 使 用 号 称 速度 是 梅森 旋转 法 的 2 


倍 的 SFMT。 
其 实 我 也 想 过 对 SFMT 进行 基准 测试 ， 





r1 


^S 


是 它 的 代码 里 用 到 了 SSE2 等 SIMD 命令 ， 源 代 








码 要 比 想象 中 复杂 。 
SFMT 以 简洁 的 形式 加 入 到 基准 测试 程序 里 
让 我 感到 非常 遗憾 。 














由于 时 间 所 限 ， 这 次 没 能 将 


这 


Xorshift 并 没有 达到 相当 于 梅森 旋转 法 的 2 倍 
的 速度 ， 所 以 如 果 SEMT 真 的 像 它 宣称 的 那么 快 的 话 ， 就 成 了 兼顾 周期 和 性 能 的 最 强 算法 。 现 在 我 











benchmark repeats 100000000 times 

func lem: 0.305532sec < 线性 同 余 法 
func mtw: 0.963983sec < 梅森 旋转 法 
0.733444sec «— Xorshift 








func xort 


图 5-49 ”随机 数 生成 的 基准 测试 的 结果 


表 5-12 基准 测试 机 器 的 配置 


机 型 Thinkpad E450 
CPU Core i7-5500U 
CLOCK 2.40 GHz 
MEM 16 GB 

OS Ubuntu 16.04 
(Gee gcc 5.4.0 








还 没有 完全 理解 这 个 算法 ， 尚 不 能 熟练 使 用 ,今后 我 会 继续 人 研究 它 的 。 
Streem 的 随机 数 功 能 








在 当前 的 Streem 中 ， 与 随机 数 相关 的 功能 有 生成 随机 数 流 的 rand () 函数 ， 以 及 使 用 随机 数 


进行 抽样 的 sample () 函数 。 











zand() 函数 是 逐个 传递 随机 数 的 流 。 比 如 下 面 的 程序 在 运行 后 ， 就 会 持续 输出 随机 数 ， 直 到 


输入 中 断 让 它 停 止 为 止 。 


rand() |stdout 


sample () 函数 会 按照 参数 指定 的 数量 从 上 游 流 中 取出 元 素 进行 抽样 。 





fread("data.csv") sample (100) | stdout 


上 面 这 行 代码 会 从 daata.csv 包 含 的 行 中 取出 100 行进 行 抽样 ， 并 显示 在 标准 输出 中 。 即 使 

















data.csv 有 几 万 行 ，sampJe O 函数 也 会 均等 地 进行 抽样 ， 这 就 是 蓄 水 池 抽 样 算法 的 魔力 。 























了 伪 随 机 数 算法 Xorshift 的 修正 版 义 orshift64”( 周期 是 2%_1 )。Xorshift64 与 原 
版 Xorshift 不 同 的 是 在 随机 数 生 成 的 最 后 阶段 使 用 了 乘法 。 尽 管 这 样 





会 让 计算 速度 降低 ， 但 是 随 
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机 性 得 到 了 加 强 ， 而 且 Xorshift64 也 通过 了 伪 随 机 数 算法 测试 Die Hard 的 所 有 测试 项 目 。 





只 是 现在 的 Xorshifte4" 周期 太 短 ， 还 不 适合 在 
替换 为 梅森 旋转 法 或 SFEMT。 





随机 数 的 各 种 类 型 


之 前 介绍 的 随机 数 都 是 均匀 随机 数 ， 即 某 个 范 
所 需要 的 随机 数 并 不 都 是 均匀 随机 数 。 

用 于 统计 分 析 的 了 语言 中 内 置 了 多 种 随机 数 4 
称 ( 多 为 省 略 形 式 》。 比 如 均匀 随机 数 是 服从 均匀 























实际 的 统计 处 理 等 场景 中 使 用 ,今后 可 能 会 将 其 


辕 内 的 数 会 以 均等 的 概率 出 现 , 但 是 统计 和 模拟 





E 成 函数 (K 5-13) 命令 规则 是 “r+ 分 布 的 名 
分 布 (uniform distribution ) 的 随机 数 ， 所 以 是 





runif， 服 从 正 态 分 布 (normal distribution ) 的 随机 数 是 rnorm。 


表 5-13 R 的 随机 数 生成 函数 





runif 均匀 随机 数 也 就 是 随机 数 

rnorm 标准 正 态 随机 数 正 态 分 布 随机 数 
rbinom 二 项 随机 数 二 项 分 布 随机 数 
rpois 泊 松 随机 数 泊 松 分 布 随 机 数 
rexp 外 数 随机 数 外 数 分 布 随 机 数 
rgamma 伽 马 随机 数 伽 马 分 布 随机 数 











Streem 的 rand () 相当 于 runif。 至 于 其 他 的 随机 数 生 成 函数 ， 我 打算 在 需要 时 再 去 实现 ， 
不 过 标准 正 态 随机 数 因为 用 法 明确 ， 而 且 可 以 立刻 在 模拟 等 场景 中 使 用 ， 所 以 我 想 早点 去 实现 。 不 
过 函数 的 名 字 很 难 取 ， 我 纠结 于 是 根据 正 态 分 布 取 名 为 nrand O ， 还 是 取 名 为 rand_normal ()。 
虽然 前 者 比较 简洁 ,但 是 考虑 到 今后 要 提供 各 种 各 样 的 随机 数 生成 函数 ， 还 是 不 要 省 略 过 多 为 好 ， 



































因此 我 最 后 使 用 了 rand_norm()。 


小 结 





























本 节 讲 解 了 生成 随机 数 的 伪 随 机 数 算法 及 其 应 用 ， 特 别 是 在 以 数据 处 理 为 主 的 Streem P, BE 
机 数 起 到 了 重要 的 作用 。 在 读者 看 到 本 篇 之 前 ,我 打算 继续 实现 Streem 的 随机 数 功能 。 
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我 挑战 了 新 的 算法 











本 节 是 2016 年 10 


























的 统计 基础 之 后 又 一 个 


方法 。 

















偏 数学 的 话题 ， 让 我 很 痛苦 。 














我 尽 自己 所 能 讲解 了 各 种 算法 及 其 评估 


3 刊 中 刊登 的 内 容 ， 主 要 介绍 了 随机 数 生成 的 相关 内 容 ， 


这 是 继 5-5 节 









































中 有 线性 同 余 法 ， 比 较 新 的 算法 里 比较 有 名 的 有 梅森 旋转 法 。 不 过 












































我 想 尝 试 新 的 东西 ， 所 以 这 次 采用 了 Xorshift 算法 。Xorshift 比较 简单 ， 而 且 速 度 很 快 ， 生 成 

















的 随机 数 质量 也 很 高 ， 但 是 它 





























筋 。 我 数学 不 好 ， 











为 难 。 


2 




















很 多 派生 出 来 的 算法 ， 昨 











呈 加 上 了 网络 信 息 错 综 复 才 








鉴别 哪些 信息 是 正确 的 ， 











为 此 不 知道 该 相信 哪个 才 好 ， 这 让 我 非常 
































把 握 。 


我 姑且 以 自己 认为 是 正确 的 信息 进行 了 实现 ， 但 这 真 的 是 正确 的 吗 ? 其 实 我 自己 也 没 








K， 让 我 很 伤 脑 


























数据 流 图 


节 将 介绍 适合 流 处 理 语言 Streem 的 从 流 的 输入 到 图 形 输 出 的 过 程 。GUlI 库 淘汰 的 速 












































快 ， 所 以 我 们 以 能 够 长 久 使 用 的 CUI 为 基础 来 输出 图 形 。 本 节 也 将 介绍 改善 外 观 


相信 很 多 工程 师 都 和 我 一 样 ， 喜 欢 什么 都 测 一 测 。 我 每 天 晚上 都 会 称 体重 ， 生 病 发 烧 时 也 是 每 
隔 15 分 钟 就 测 一 次 体温 ， 以 把 握 体 温 的 变化 趋势 。 我 的 计算 机 屏幕 上 也 会 显示 内 存 使 用 量 、CPU 
使 用 率 和 网 络 流量 等 图 表 。《 宇 宙 战 舰 大 和 号 》 的 舱 内 有 相当 多 的 计量 表 ， 估 计 也 是 出 于 相似 的 心 
理 吧 。 

所 以 我 考虑 让 Streem 也 能 把 输入 的 数据 图 形 化 。 可 是 图 形 的 处 理 非常 麻烦 ，GUTI (Graphical 
User Interface， 图 形 用 户 界面 ) 的 AP 因 平台 而 异 ， 如 果 要 使 用 某 个 GUI 库 ， 光 是 讲解 这 个 库 就 得 
占 掉 整 个 版 面 。 

而 且 一 般 来 说 ，GUI 库 的 寿命 要 比 编程 语言 短 得 多 。 看 看 Ruby 早期 非常 受 欢 迎 的 GUI 库 Tk 
的 命运 就 知道 了 ， 这 个 库 现在 已 经 基本 上 不 见 踪影 了 。 

所 以 我 打算 先 不 讨论 GUI 这 种 和 美观 相关 的 部 分 ， 只 讲解 如 何 显示 图 形 这 一 本 质 话题 。 






























































GUI fl CUI ( 或 者 叫 CLI ) 














CUI 是 相对 于 GUI 的 一 个 专业 用 语 ， 是 Character User Interface ( 字符 用 户 界 面 ) 的 简称 。 不 























用 的 是 CLI (Command Line Interface， 命 令 行 界 面 )。 
CUI 使 用 字符 来 显示 界面 ， 能 够 在 已 经 使 用 了 几 十 年 的 终端 中 工作 ， 今 后 也 不 用 担心 终端 会 消 
失 。 这 次 我 就 使 用 CUI 来 开发 图 形 显示 的 功能 。 
































stag 


于 是 我 开始 寻找 可 供 参 考 的 工具 ， 然 后 就 发 现 了 stag。 
stag 这 个 工具 用 于 从 标准 输入 读 取 数值 数据 ， 然 后 输出 为 条 形 图 。 比 如 图 5-50 这 段 代 码 可 以 把 
Streem 生成 的 随机 数 序列 输出 为 图 表 ， 输 出 结果 如 图 5-51 所 示 。 


























300 | 第 5 章 强化 流 编程 


arresi -e Prene rowu) Meers Lo sd Sita 


5-50 ”使 用 stag 生成 随机 数 图 表 





5-51 使 用 stag 生成 随机 数 图 表 的 输出 结果 
stag 虽然 是 一 个 很 方便 的 工具 ， 但 我 觉得 还 是 不 要 从 Streem 发 送 数据 到 其 他 进程 ， 而 是 直接 生 



































成 图 表 会 更 加 方便 ， 所 以 本 节 我 会 向 Streem 添加 与 stag 作用 相同 的 函数 。 






























































画面 构成 

首先 把 stag 显示 的 画面 按照 图 5-52 进行 分 割 。 标题 

通过 字符 把 这 些 部 分 输出 即 可 。 是 大 部 分 终端 支持 
使 用 转 义 字符 串 对 输出 的 文字 设置 颜色 ， 或 者 移动 光标 。 使 用 图 表 ES 















































这 个 功能 ， 还 可 以 替换 部 分 画面 。 
stag 使 用 了 用 于 CUI 的 ncurses 库 ， 但 是 本 次 开发 用 不 到 
太 多 的 功能 ， 所 以 我 决定 直接 使 用 转 义 字符 串 来 画图 。 图 5-52 stag 的 画面 分 割 






































转 义 字符 串 





最 近 听 到 “终端 ”这 个 词 ， 只 是 想到 “输入 shell 命令 的 窗口 ”。 可 是 很 久 以 前 oa ES 
(设备 )， 那 iiid dada Ri ui #。 现 在 我 们 使 用 的 “终端 ”只 是 用 软件 实 mcm 
端 机 器 的 功能 ， 准 确 地 说 应 该 称 为 “终端 模拟 器 ”。 

在 终端 作为 机 器 使 用 的 那 人 年代， 大 型 计算 机 (现在 看 来 其 实 性 能 非常 弱 ) 上 通常 会 连接 几 个 
终端 进行 操作 。 这 是 个 人 计算 机 出 现 之 前 的 事情 。 

那个 年 代 的 终端 只 有 显示 文本 的 显示 屏 和 输入 信息 的 键盘 ， 没 有 计算 机 的 处 理 能 力 。 它 的 功能 
仅 限 于 把 输入 的 信息 全 部 发 送 到 计算 机 C 当时 称 为 主机 )， 然 后 在 画面 上 显示 返回 的 信息 。 
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只 是 这 样 也 大 过 简陋 ， 后 来 人 们 通过 向 终端 发 送 转 义 字符 加 上 一 些 字符 的 方式 ， 使 终端 能 够 调 

















j 的 字符 串 可 


用 操作 画面 的 各 种 功能 了 。 这 样 的 字符 串 被 称 为 转 义 字符 串 ， 比 如 下 对 
表 5-14 具有 代表 性 的 转 义 字符 串 
TSC l 2 


这 些 转 义 字符 串 根 据 设备 的 厂商 和 机 
型 的 不 同 而 有 所 不 同 ， 但 当时 普及 度 很 高 的 
DEC 的 VT100 机 型 的 转 义 字符 串 基 本 上 成 为 
了 标准 。 

这 次 在 图 表 功 能 的 实现 中 使 用 的 转 义 字 
符 串 如 表 5-14 所 示 。 











获取 窗口 大 小 


首先 获取 当前 的 终端 窗口 的 大 小 。 获 取 窗 


ioctl 是 以 文件 描述 符 为 对 象 控 制 输入 输出 的 系统 调用 。 











lo 





VÉ zs Mj T 


TEE 





























ESC [ x;y H 将 光标 移动 到 (x, y) 

ESC I2 J 画面 清空 

Em qp x* m 清空 光标 前 面 一 行 

ESC [ 3x m 指定 文字 颜色 ( 黑 红 绿 黄 青紫 蓝 白 ) 
HE d Gun 重 置 颜色 

ESC [ 6 n 获取 光标 位 置 

ESC [? 25 1 ”隐藏 光标 

mE m] € 235 m | 




















口 大 小 的 方法 有 很 多 ， 这 次 我 们 使 




















调用 形式 如 下 所 示 ， 内 核 根据 request 进行 控制 。 


rocti(td reguest =), 

















] ioctl, 


即使 对 同一 个 esuest， 处 理 也 可 能 会 因 文 件 描述 符 所 代表 的 设备 而 异 ， 不 过 我 们 不 用 在 意 
具体 的 设备 ， 可 以 把 它 当 成 某 种 面向 对 象 。UNIX 的 优点 是 可 以 通过 文件 描述 符 把 各 种 对 象 按照 面 
向 对 象 的 方式 进行 处 理 ， 这 个 操作 系统 刚 出 现时 给 人 带 来 了 一 种 耳目 一 新 的 感觉 。 








struct winsize 的 指针 (图 5-53 )。 


<stdio.h> 
«stdlib.h» 
«sys/ioctl.h» 


#include 

#include 

#include 

#include «termios.h» 

Socle de Lge 

get winsize(int* row, int* col) 
struct winsize w; 


alae. miy 





使 用 ioct1 向 内 核 询问 窗口 大 小 的 请 求 是 TIOCSWINSZ， 参 数 是 保存 窗 


口 大 小 的 结构 体 
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ün- ioctl(i, TIOCGWINSZ, &w); 


一 一 


ie (aa 0 || vws col == 0) 
return i; 
*row = w.WS_rOW; 


*col = w.ws col; 


recurnmor 
} 
int 
main() 
{ 
int row. cols 
oie nr 
n - get winsize(&row, &col); 
if (m «GG || estes 0) { 
printf("WINSZ failedin"); 
exit(1); 
) 
printf("WINSZ ($d, $d)Nn", w.ws col, w.wsS row); 
} 


图 5-53 ”使 用 ioctl 获取 窗口 大 小 


移动 光标 


我 们 使 用 转 义 字符 串 来 移动 光标 。 如 果 输 出 的 文字 描述 符 指向 的 是 终端 ， 那 么 发 送 转 义 字符 是 
就 可 以 使 光标 自由 移动 。 发 送 下 面 的 转 义 字符 串 可 以 把 光标 移动 到 坐标 Qc, y) 的 位 置 。 移 动 的 原点 
是 左上 角 ， 需 要 注意 的 是 原点 的 位 置 不 是 (0,0)， 而 是 (1,1)。 


pm 
































ESC [ x;y H 





图 5-54 的 程序 表示 在 清空 画面 后 ， 移 动 光 标 ， 输 出 Hello World， 运 行程 序 后 的 输出 结果 如 
图 5-55 所 示 。 
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#include <stdio.h> 
HSinclude «stdlib.h» 
HSinclude «unistd.h» 


Static void 
clear() 


{ 


prame ONA 


} 


Static void 


move cursor(int row, int col) 


{ 
prine ONda Pelei, wey. (teu) FE 
} 
Int 
main () 
{ 1:Hello World 
oie ap 2:Hello World 
3:Hello World 
clear (); 4:Hello World 
for (i-1; i«10; i««) ( 5:Hello World 
InovelGumsor C EIE 6:Hello World 
printf("£d:Hello WorldWin", i); 7:Hello World 
} 8:Hello World 
) 9:Hello World 
E 5-54 移动 光标 的 示例 图 5-55 移动 光标 的 示例 的 输出 结果 

















如 果 既 可 以 获取 画面 大 小 ， 又 能 清空 画面 ， 还 能 移动 光标 ， 那 么 之 后 把 这 些 功能 组 合 起 来 就 可 
以 输出 图 形 了 。 


绘制 标题 











标题 的 绘制 很 简单 。 先 指定 标题 ， 然 后 移动 到 画面 第 一 行 ， 绘 制 标 题 。 要 想 让 标题 显示 在 夯 首 
中 间 ， 就 需要 考虑 画面 大 小 和 字符 串 长 度 来 移动 光标 。 

图 5-56 是 显示 标题 的 程序 (HJ main 部 分 ) 图 5-56 的 程序 无 法 单个 编译 ， 因 为 它 使 用 了 图 5-53 
和 图 5-54 的 程序 中 定义 的 函数 ， 通 过 这 个 程序 应 该 可 以 理解 图 5-53 和 图 5-54 的 函数 的 用 法 。 
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ee 

main(int argc, char **argv) 
EL 3b, EOV (Xe 
char* title; 
int tlen; 


sede. (EruEIEp 


s lerce le 2) meis) 
tare ascen iii; 

tlen - strlen(title); 
// 获取 画面 大 小 


if (getwinsize(&row, &col) < 0) exit(1); 





start - (col - tlen) / 2; 

clear(); // 清空 画面 
move cursor(start, 1); // 移动 光标 
write(1, title, tlen); // 显示 标题 

move corsor(row-1, 1); // 移动 到 最 后 一 行 
EeeEEUTEST (0p 


图 5-56 显示 标题 


绘制 图 表 


图 表 的 绘制 也 比较 简单 。 根 据 图 表 数 据 、 最 大 值 和 窗口 大 小 ， 从 每 行 的 开头 开始 一 个 字 一 个 字 
地 判断 该 位 置 CAU) 是 否 应 该 显示 图 表 ， 如 果 需 要 显示 图 表 ， 就 为 该 位 置 设置 颜色 。 每 行 的 右边 显 
AN y Abb. 



































graph. bar() 函数 








图 5-57 是 集 上 述 内 容 之 大 成 的 graph_bar () 困 数 ， 其 中 的 get_winsize()、move 
cursor() 和 clear() 等 函数 与 图 5-53 和 图 5-54 中 定义 的 相同 。 








struct bar data { 
const char *title; 
Eteramgnm Meilen 


SEE ORG 
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germ iae Clem, Milen; 

strm int offset; 

strm int max; 

double* data; 


hs 


Static void 
show title(struct bar data* d) 


{ 


int start; 


clear(); 
if (d-»stlen == 0) return; 
start = (d-»col - d-»tlen) / 2; 


moves Cureor (id, GETE) y 
fwrite(d-»title, d->tlen, 1, stdout); 


Static void 

show yaxis(struct bar data* d) 

{ 
InoveMeusson( 2m 
ET /* 恢复 颜色 */ 


for (int i-0; i«d-»llen; i++) { 





move cursor(i«3, d-»dlen«1); 


if (i -- 0) ( 
Penmtfi (6 js Sxel ", d-»max); 
) 
else if (i == d-»llen-1) ( 
joseaceweag (U fr OU) c 
) 
else { 
jgseacweag (A || s 





static void 
show bar(struct bar data* d, int i, int n) ( 


double f = d-»data[i] / d-»max * d->llen; 


for (int line-0; line«d-»1llen; line++) ( 
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move cursor(d-»llen«2-line, n); 
OESTE 
































x 


printf ("\x1b[7m "); /* 颜色 反 转 */ 
} 
else if (line == 0) { 
Dee (eolon hy — ss 恢复 颜色 ， 绘 制 基线 */ 
} 
else { 
printf ("\x1b[0m "); /* 恢复 颜色 ， 绘 制 空 E 
} 


Static void 


show graph(struct bar data* d) 


{ 


inc m e js 


show yaxis (d); 

for (int i-d-»offset; i«d-»dlen; i++) ( 
show bar(d, i, n--); 

) 

for (int i-0; i«d-»offset; i++) { 


show bar(d, i, n*«); 


Starcie 忆 


init bar(struct bar data* d) 


{ 


if (getwinsize(&d-»row, &d-»col)) 
return STRM NG; 
d-»max - 1; 
d-»offset = 0; 
d-»dlen = d-»col-6; 
d-»llen = d-»row-5; 
d-»data = malloc((d-»dlen)*sizeof (double)); 
for (int i-0;i«d-»dlen;i««) { 
d-»data[i] -» 0; 
) 


show title (d); 


return STRM OK; 


SEEalEIC de 


iter bar(strm stream* strm, strm value data) 


struct bar data* d - strm-»data; 
double £f, max = 1.07 


if (!strm number p(data)) { 
strm raise(strm, "invalid data"); 
return STRM NG; 


Eo-ustrmevaltuextlcoat(data) 

If (fe 0) f = Op 

d-»data[d-»offset-««] = f; 

max c disp 

for (int i20; i«d-»dlen; i++) ( 
E c Cheeca] z 
WE s max) iman EE 

} 

d-»max - max; 

if (d-»offset -- d-»dlen) ( 
d-»offset = 0; 

} 

show graph(d); 

return STRM OK; 


static int 
fin bar(strm stream* strm, strm value data) 


struct bar data* d - strm-»data; 


Inovesteunsconic sow PIE 

if (d-»title) free((void*)d-»title); 
free (d-»data); 

free (d); 

return STRM OK; 


stac tenne 


{ 


{ 
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cerccibarn Sernis tr ceam emer mo args 
strm value* ret) { 
struct barcdata* d; 
char* title - NULL; 


strmainte tilen OP 


strm get args(strm, argc, args, d reg &title, &tlen); 

d - malloc(sizeof(struct bar data)); 

if (!d) return STRM NG; 

d-»title - malloc(tlen); 

memcpy((void*)d-»title, title, tlen); 

d-»tlen = tlen; 

if (init bar(d) == STRM NG) return STRM NG; 

*ret = strm stream value (strm stream new(strm consume 
15, liess igne; am loar, (VOICE c) p 

return STRM OK; 


) 


























下 面 是 各 部 分 的 处 理 步 又。 首先 ， 在 初始 化 部 分 进行 以 下 处 理 。 








e 获取 画面 大 小 
e 清空 国 面 


e 绘制 标题 






























































每 当 收 到 来 自 上 游 流 的 数值 数据 时 ， 就 进行 以 下 处 理 。 








e 保存 数据 
e 计算 最 大 值 


e 绘制 图 表 




















绘制 图 表 时 的 操作 如 下 所 示 。 











e 绘制 y 轴 
e 从 左边 开始 显示 条 形 医 









































只 要 正确 使 用 转 义 字符 串 ， 这 些 操作 就 都 不 是 很 难 。 

这 里 让 我 花 了 点 心思 的 是 〈 用 于 显示 图 表 的 ) 缓冲 的 使 用 方法 。pazr_dqata 结构 体 中 有 一 个 名 为 
data 的 数组 ， 该 数组 保存 了 与 能 够 显示 的 图 表 的 数量 相应 的 数据 ，offset 用 于 在 指定 的 位 置 写 人 
输入 的 数据 。offset 在 超过 数组 长 度 dlen 时 会 恢复 为 0， 所 以 这 是 一 种 环形 缓冲 (ring buffer )。 
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显示 时 先 显 示 从 offset 开始 到 缓冲 结束 为 止 的 数据 ， 然 后 再 显示 开头 到 offset 之 前 的 数 
据 ， 这 样 就 可 以 按照 输入 的 时 间 顺 序 从 左 开始 显示 图 表 了 。 

绘制 图 表 时 ， 移 动 光 标 ， 在 值 没 有 到 达 某 一 高 度 时 用 反 转 色 填 充 空 白 ， 剩 余部 分 用 普通 颜色 
填充 。 

绘制 图 表 的 代码 写 好 之 后 ， 我 们 来 画 几 个 图 表 看 看 效果 。 以 下 代码 的 显示 结果 如 图 5-58 所 示 。 
























































seq(100)|graph bar() 


以 下 代码 的 显示 结果 如 图 5-59 所 示 。 


rand norm()|take(100)|graph bar() 


AM "i | 


5-58 seq(100)lgraph bar() 的 显示 结果 图 5-59 rand nom(ltake(100)lgraph bar() 的 显示 结果 
调整 窗口 大 小 











以 前 的 机 器 终端 的 画面 大 小 是 不 会 发 生变 化 的 ， 而 现在 的 终端 模拟 需 的 画面 大 小 则 会 根据 窗口 
大 小 的 调整 而 发 生变 化 。 

CUI 也 支持 窗口 大 小 的 调整 。 这 次 因为 要 让 源 代 码 精简 一 些 ， 所 以 就 不 让 Streem 文 持 窗口 大 
小 的 调整 了 ， 不 过 我 会 在 这 里 为 大 家 讲 一 下 具体 的 做 法 。 

在 终端 大 小 发 生变 化 时 ， 系 统 会 向 终端 进程 发 送 SIGWINCH 信号 。 收 到 信号 时 ， 重 新 初始 化 
图 表 ， 再 次 绘图 即 可 。 

接收 信号 时 使 用 singal 函数 。 下 面 的 代码 表示 在 接收 到 信号 时 ， 处 理 函 数 指定 的 中 断 处 理 
C interrupt handler ) 会 被 调用 。 


































































































singal ( 信号 编号 ， 处 理 函 数 ) 
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实际 的 调用 例子 如 下 所 示 。 


singal (SIGWINCH, winch handler); 








由 于 无 法 预料 中 断 会 在 何 时 被 发 送 ， 所 以 有 的 中 断 处 理 中 的 逻辑 无 法 执行 。 因 此 ， 通 常 的 做 法 
是 ,在 中 断 处 理 中 只 对 变量 进行 赋值 ， 由 主 程序 检查 是 否 有 中 断 。 

不 过 要 把 这 个 函数 引入 到 Streem 里 还 存在 一 些 问题 。 在 一 个 进程 中 只 能 对 一 个 信号 注册 一 个 
处 理 函数 ， 所 以 如 果 要 在 程序 的 其 他 地 方 使 用 信号 ， 就 会 导致 某 个 处 理 不 会 被 调用 。 

我 们 也 可 以 换个 角度 思考 。 反 正 开销 也 不 大 ,干脆 每 次 都 重新 获取 窗口 大 小 好 了 ， 如 果 与 之 前 
的 大 小 不 一 样 ， 就 重新 进行 初始 化 。 这 样 一 来 ， 我 们 就 可 以 不 依赖 信号 来 解决 问题 ， 而 且 语 言 处 理 
器 的 其 他 部 分 也 无 须 在 意 信号 处 理 。 


















































光标 的 事后 处 理 


说 起 信号 ， 还 有 一 个 让 人 担心 的 问题 。 为 了 防止 绘制 图 表 时 光标 闪烁 ， 现 在 的 graph bar 的 
做 法 是 在 绘制 过 程 中 隐藏 光标 。 

但 问题 是 在 通过 “Ctrl+C” 组 合 键 触 发 键盘 中 断 而 中 止 程序 时 ， 光 标 还 是 处 于 消失 的 状态 。 要 
解决 这 个 问题 ， 就 需要 对 键盘 中 断 发 生 时 所 发 送 的 SIGINT 信和 号 的 处 理 进行 设置 。 

但 正如 在 介绍 SIGWINCH 时 所 说 的 那样 ， 在 信号 处 理 的 设 定 中 ， 不 能 在 程序 的 其 他 部 分 对 同 
一 个 信号 指定 另外 的 处 理 。 一 般 来 说 ， 通 过 对 整体 进行 协调 而 开发 的 应 用 软件 中 基本 上 不 会 有 问 
题 ， 但 在 像 语言 处 理 器 那样 各 个 功能 独立 的 情况 下 ， 就 会 出 现 问题 了 。 

真是 让 人 头疼 。 

但 是 仔细 想 一 想 ， 问 题 的 根源 在 于 对 一 个 信号 只 能 设置 一 个 处 理 ， 所 以 我 在 Streem 处 理 器 中 
准备 了 设置 信号 处 理 的 函数 。 









































Simasstgmal issu e ae) 


上 述 新 函数 会 对 sig 指定 的 信号 设置 处 理 函 数 func。 即 使 指定 多 个 处 理 函 数 也 不 会 发 生 覆 
盖 ， 所 有 处 理 函 数 都 会 被 调用 。azg 是 void* 类 型 的 参数 ， 会 被 传递 给 人 处理 函 数 。 
使 用 这 个 函数 ， 就 不 必 担 心 在 Streem 处 理 器 的 其 他 地 方 处 理 相同 的 信号 时 发 生 冲 突 了 。 














今后 的 课题 


到 这 里 就 可 以 从 数值 流 输出 条 形 图 了 。 不 过 用 21 世纪 的 眼光 来 看 ， 用 字符 来 显示 图 形 实 在 是 
太 落 伍 了 ， 所 以 自然 要 去 思考 有 没有 什么 更 好 的 办 法 ， 以 使 图 形 更 加 美观 。 
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Sixel 图 像 库 


不 过 基于 前 面 提 到 的 原因 ， 我 还 是 想 尽量 避免 使 用 GUI 库 ，Sixel 图 像 库 这 项 技术 正 符合 我 的 
需求 。Sixel Æ “Six Pixels” 的 缩写 ， 这 项 技术 把 终端 上 的 一 个 字符 分 解 为 6 个 像素 ， 并 通过 转 义 
字符 串 为 每 个 像素 指定 256 种 颜色 。 虽 然 Sixel 在 20 世纪 80 年 代 就 已 经 被 DEC 的 VT200 系列 所 
使 用 ， 是 一 项 比较 古老 的 技术 ， 但 是 在 解释 它 的 终端 模拟 器 上 ， 则 可 以 通过 扩展 功能 显示 1600 万 
色 (〈 最 多 )。 另 外 ，Sixel 虽然 是 使 用 了 转 义 字符 串 的 效率 不 太 高 的 图 形 显示 方法 ， 但 是 在 现在 的 机 
器 上 也 可 以 流畅 地 显示 GIF 动画 。 

Sixel 图 像 库 的 缺点 是 没有 得 到 所 有 终端 的 支持 ， 比 如 我 手头 用 的 xterm 和 mlterm 支持 Sixel 图 
像 库 ， 但 gnome-terminal 和 roxterm 却 不 支持 。 



























































小 结 


本 节 实 现 了 将 数值 流 作 为 输入 ， 通 过 字符 图 形 输出 条 形 图 的 函数 。 老 实说 图 形 还 很 粗糙 ， 期 待 
今后 能 够 加 以 完善 ， 比 如 使 用 Sixel 以 像素 为 单位 进行 显示 等 。 











时 光 机 专栏 
今后 也 会 继续 开发 Streem 
































本 节 是 2016 年 11 月 刊 中 刊登 的 内 容 ， 实 现 了 以 字符 为 基础 的 图 形 显示 功能 。 在 处 理 完 数 
据 之 后 ， 我 们 经 常会 想 用 图 形 来 显示 ， 但 我 一 直觉 得 把 数据 导入 Excel， 再 使 用 它 的 图 形 功能 
进行 显示 这 种 做 法 很 麻烦 ， 本 节 实 现 的 功能 就 是 为 和 我 一 样 的 人 准备 的 。 

不 过 ， 光 是 实现 一 个 粗糙 的 条 形 图 就 已 经 让 我 拼 尽 全 力 了 。 虽 然 还 不 能 说 已 经 完成 了 图 
功能 ， 但 是 我 想 这 至 少 证 明了 还 是 有 希望 实现 这 个 功能 的 。 

到 目前 为 止 ， 我 已 经 多 次 向 Streem 添加 功能 ， 这 里 就 先 告 一 段落 。Streem 离 完成 还 很 遥 
远 ， 所 以 我 不 会 就 此 停止 开发 ， 只 是 连载 不 能 无 限期 地 继续 下 去 了 。 本 书 也 就 到 此 告 一 段落 ， 
Streem 今后 会 以 OSS 的 形式 继续 开发 下 去 。 
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正文 里 提 到 过 ， 我 不 擅长 数学 ， 而 且 对 并 发 编程 也 不 拿手 ， 但 是 在 这 个 大 数据 和 数据 科学 盛 
行 、 计 算 机 逐渐 多 核 化 的 时 代 ， 这 些 我 不 擅长 的 领域 的 重要 性 却 在 与 日 俱 增 。 

我 们 中 的 多 数 是 工程 师 。 工 程 师 的 灵魂 不 就 是 用 技术 去 解决 问题 吗 ? 那么 如 何 解 决 这 些 问 题 
Wi? 我 给 出 的 答案 是 使 用 Streem。 挑 战 自己 不 擅长 的 领域 是 极其 困难 的 ， 即 使 有 灵光 闪现 ， 也 很 
难 做 出 成 绩 。 我 在 本 书 中 也 几 度 表达 了 自己 的 刁 悔 1 于 实力 不 足 而 遗留 下 几 个 没 能 彻底 解决 的 
问题 ， 以 及 因为 干劲 和 时 间 都 不 足 而 没 能 改善 完成 度 很 低 的 代码 ， 但 我 认为 这 些 “ 缺 点 ”不 会 降低 
Streem 语言 本 身 的 价值 。 
其 实 我 非常 喜欢 Streem 的 运行 模型 ， 在 2015 年 的 Ruby 大 会 和 RubyConf 大 会 上 ， 我 都 提议 在 
Ruby 将 来 的 版 本 (Ruby 3) 里 引入 以 Streem 的 并 发 模型 为 基础 的 功能 。 虽 然 我 比较 积极 ， 但 是 经 
过 讨论 ， 最 终 可 能 会 采用 管 田 耕 一 提议 的 Guild 模型 。 选 择 这 个 模型 的 原因 是 它 在 表现 能 力 和 兼容 
性 上 显示 了 强大 的 实力 。 

Streem 的 并 发 模型 的 抽象 度 很 高 ， 无 法 以 极 细 的 粒度 编写 处 理 代 码 ， 这 既是 它 的 优点 ， 也 是 它 
的 缺点 。 不 过 如 果 要 把 这 个 并 发 模型 引入 Ruby 3， 我 们 就 不 能 对 它 的 缺点 视而不见 。 

我 考虑 的 引入 Streem 模型 的 方式 是 让 一 种 语言 里 存在 两 种 模型 ， 也 就 是 让 非常 相似 的 两 种 语 
言 混合 在 一 起 ， 以 此 来 统一 Ruby 和 Streem 各 自 不 同 的 运行 模型 ， 不 过 这 样 可 能 会 给 用 户 带 来 很 大 
的 混乱 ， 不 被 采用 也 是 没有 办 法 的 事情 。 































































































































































































没有 做 到 的 事情 


我 在 正文 中 多 次 表达 了 愧 悔 之 情 ， 这 也 说 明 Streem 离 完 成 还 差 得 很 还， 特别 是 没有 很 好 地 实 
现 GC 功能 是 个 大 问题 。 现 在 的 Streem 处 理 器 几乎 不 会 释放 内 存 ， 所 以 在 处 理 大 量 数据 时 内 存 必定 
会 消耗 列 尽 。 

说 起 来 ， 在 4-4 节 我 介绍 过 提高 效率 的 方法 ， 就 是 让 每 个 线程 在 自己 的 空间 内 分 配对 象 ，GC 
也 以 线程 为 单位 进行 ， 但 在 实际 开发 时 却 发 现实 现 该 方法 要 比 想象 中 困难 。 在 管道 里 交付 数据 时 ， 
数据 对 象 会 传 给 下 一 个 线程 。 如 果 这 个 对 象 包含 了 对 数组 等 其 他 对 象 的 引用 ， 就 需要 把 被 引用 的 对 
象 递 归 地 复制 到 下 一 个 线程 的 内 存 空间 。 我 一 开始 没 想 到 会 这 么 复杂 ， 所 以 就 推迟 了 这 个 实现 。 

但 要 想 使 Streem 成 为 实用 的 语言 处 理 器 ， 就 得 想 办 法 解决 这 个 问题 。 第 一 步 我 准备 修改 使 用 
T NaN Boxing 技术 的 对 象 表示 方法 ， 然 后 引入 1ibgc。 

libgc 是 通过 链接 的 方式 向 C 语言 编写 的 应 用 中 添加 GC 功能 的 库 ， 不 过 它 有 一 个 限制 条 件 ， 
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就 是 不 能 改变 指针 的 值 ， 而 现在 的 Streem 使 用 了 NaN Boxing， 不 受制 于 这 个 限制 条 件 。 

根据 目前 被 广泛 使 用 的 浮 点 数 运 算 标准 IEEE 754， 在 双 精 度 浮 点 数 的 64 位 中 ， 符 号 位 使 用 1 
位 ， 指 数位 使 用 11 位 ， 尾 数位 使 用 52 位 。 

另外 ，IEEE 754 中 还 引入 了 作为 未 定义 的 计算 结果 ( 比如 被 0 除 ) 的 NaN。"“ 指 数 部 分 全 部 是 
1” 的 值 被 定义 为 NaN 值 。 虽 然 表 示 NaN 的 值 只 有 一 个 就 够 了 ,但 是 实际 上 指数 部 分 全 是 1 的 值 
都 是 NaN。 如 果 好 好 利用 这 一 点 ， 用 NaN 解释 的 值 中 就 有 52 位 可 以 用 来 寒 入 整数 值 ， 这 就 是 NaN 
Boxing R, KRE, X 52 位 中 有 4 位 被 用 于 表示 值 的 类 型 的 标签 ， 剩 下 的 48 位 被 用 于 保存 实际 
的 值 。 
如 果 只 有 48 位 可 用 ， 我 们 可 能 就 会 觉得 在 64 位 操作 系统 中 无 法 保存 指针 ， 但 实际 上 除了 一 些 
特殊 情况 以 外 ,包括 Linux 在 内 的 大 多 数 操作 系统 即使 在 64 位 机 器 上 也 只 用 48 位 来 表示 指针 值 ， 
所 以 这 一 点 大 家 大 可 放心 。 

但 是 这 种 做 法 会 把 指针 的 值 转换 成 浮 点 数 ， 导 致 1ibgc 无 法 发 现 指针 ， 不 能 进行 GC， 所 以 需 
要 改进 NaN Boxing 的 部 分 ， 修 改 格 式 使 指针 值 依然 是 指针 。 

想法 非常 简单 。 在 64 位 指针 值 中 ， 实 际 用 于 表示 地 址 的 只 有 48 位 ， 剩 余 16 位 都 是 0。NaN 
Boxing 在 这 个 部 分 插入 标签 ， 将 其 伪装 成 NaN 值 。 也 就 是 说 ， 需 要 表示 指针 值 时 ， 把 标签 的 值 调 
整 为 0 就 可 以 了 。 当 然 ， 调 整 后 的 值 不 是 真正 的 浮 点 数 ， 所 以 就 需要 在 作为 浮 点 数 取 出 时 对 值 进行 
加 工 ， 不 过 这 并 不 会 产生 什么 大 的 开销 。 

这 种 NaN Boxing 的 变 体 被 称 为 Favor Pointers。 
JU NaN Boxing WX Favor Pointers 之 后 就 简单 了 ， 只 需要 用 GC_malloc() 把 现在 调用 

lloc () 分 配 内 存 的 部 分 替换 掉 ， 就 能 够 实现 GC 了 。 虽 然 Libgc 不 能 像 4-4 节 介 绍 的 那样 利用 
相关 的 固有 知识 进行 优化 ， 但 是 它 提供 了 支持 线程 的 分 代 GC， 因 此 可 以 有 效 地 进行 GC。 
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后 会 有 期 


BIA Ruby 3 中 不 采用 Streem 的 并 发 模型 ， 但 这 并 不 意味 着 Streem 就 没有 价值 了 。 我 想 把 
Streem 当成 一 个 独立 的 语言 继续 开发 下 去 。 

其 实 还 有 一 些 与 Streem 理念 相似 的 语言 和 工具 ， 比 如 tab 和 datamash。 我 会 尽量 让 Streem 成 
长 为 这 些 语 言 和 工具 的 竞争 对 手 。 

还 请 大 家 期 待 我 的 下 一 部 作品 ! 








松本 行 弘 
2016 年 12 月 
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